WO2020115866A1

WO2020115866A1 - 深度処理システム、深度処理プログラムおよび深度処理方法

Info

Publication number: WO2020115866A1
Application number: PCT/JP2018/044939
Authority: WO
Inventors: 薫那須野; 僚輔那須野
Original assignee: 株式会社ＤｅｅｐＸ
Priority date: 2018-12-06
Filing date: 2018-12-06
Publication date: 2020-06-11

Abstract

深度カメラによって取得された深度画像を精度よく高分解能化する。ニューラルネットワークモデル４は、物体の輝度画像Ｂおよび所定の深度分解能を有する深度画像Ｄlowの入力に対して、深度画像Ｄlowよりも深度分解能が高い推定深度画像Ｄhighが出力されるように、自己が有する関数の内部パラメータが調整されている。深度カメラ２は、物体を撮像して、輝度画像Ｂおよび深度画像Ｄlowを取得する。深度処理部３は、深度カメラ２によって取得された輝度画像Ｂおよび深度画像Ｄlowの入力に対して、ニューラルネットワークモデル４から出力された推定深度画像Ｄeに基づいて、深度画像Ｄlowを高分解能化した深度画像Ｄhighを出力する。

Description

深度処理システム、深度処理プログラムおよび深度処理方法

　本発明は、深度画像を処理する深度処理システム、深度処理プログラムおよび深度処理方法に関する。

　従来、深度画像を高分解能化する手法が知られている。例えば、特許文献１には、深度依存ピクセル平均化関数を利用して、深度画像を高解像度化する深度マップの改善方法が開示されている。具体的には、まず、キャプチャーすべき特定のシーンについて、複数の深度カメラを用いて、互いに異なる撮像方向から一群の深度画像が取得される。つぎに、それぞれの深度カメラに対する深度依存ピクセル平均化関数が取得される。そして、深度依存ピクセル平均化関数を利用して、深度画像群を統合し、このシーンに関する高解像度深度画像が生成される。

　また、特許文献２には、距離画像の解像度を高速かつ高精度で変換する距離画像解像度変換装置が開示されている。具体的には、まず、処理対象となる距離画像と、この距離画像と同じ位置に存在する被写体を撮影した色画像とが入力される。つぎに、入力された距離画像に対してノイズ除去を行うことによって、ノイズ除去済み距離画像が生成される。つぎに、距離画像と、ノイズ除去済み距離画像と、色画像とに基づいて、距離画像に対して自己相関を利用したアップサンプル処理を行うことによって、ＳＳＭ部高解像度距離画像が生成される。そして、ノイズ除去済み距離画像と、ＳＳＭ部高解像度距離画像とに基づいて、線形予測によるアップサンプル処理を行うことによって、ＰＬＵ部高解像度距離画像が生成される。

　一方、深度画像の処理に関するものではないが、特許文献３には、ディープラーニングを用いて、実世界の既存の輝度画像から新たなビューを予測するシステムが開示されている。このシステムでは、個々の光景に対応するポーズ画像を多数用いて訓練され、かつ、新たなビューの合成を画素から直接実行するディープアーキテクチャが用いられる。このようなディープネットワークを利用したシステムは、隣接ビューの画素に基づいて、見たことがないビューの画素を生成するといったグラフィックス用途に適している。

特表２０１７－５２７０４２号公報特開２０１７－２２４１６９号公報特表２０１８－５１４０３１号公報

　ところで、産業用ロボットなどの分野では、既知の物体（ワーク）に対する所定の作業を高い精度で行うために、深度を含む物体の三次元情報を高い分解能で認識する必要がある。例えば、食材の一つであるパスタの定量ピッキングでは、盛付け量の許容誤差の関係上、麺１本（１ｍｍ）程度の凹凸が見分けられる程の深度分解能が要求される。しかしながら、このような高分解能な深度カメラは高価であることから、深度分解能が低い安価な深度カメラを用いて、ソフトウェア技術によって深度画像を高分解能化する手法の開発が望まれている。

　本発明は、かかる事情に鑑みてなされたものであり、その目的は、深度カメラによって取得された深度画像を精度よく高分解能化することである。

　かかる課題を解決すべく、第１の発明は、ニューラルネットワークモデルと、第１の撮像部と、深度処理部とを有し、深度画像を処理する深度処理システムを提供する。ニューラルネットワークモデルは、物体の輝度画像および所定の深度分解能を有する深度画像の入力に基づいて、この深度画像よりも深度分解能が高い画像を出力する。第１の撮像部は、物体を撮像して、第１の輝度画像および第１の深度画像を取得する。深度処理部は、第１の撮像部によって取得された第１の輝度画像および第１の深度画像の入力に基づくニューラルネットワークモデルの出力に基づいて、第１の深度画像を高分解能化する。

　ここで、第１の発明において、上記深度処理部は、ニューラルネットワークモデルから出力され、かつ、第１の深度画像よりも深度分解能が高い深度値を示す推定深度画像を、上記高分解能化した処理結果として出力してもよい。また、これに代えて、上記深度処理部は、ニューラルネットワークモデルから出力され、かつ、第１の深度画像に対する深度差を示す推定深度差画像と、第１の深度画像とを加算することによって得られた加算深度画像を、上記高分解能化した処理結果として出力してもよい。

　第１の発明において、上記ニューラルネットワークモデルは、入力された輝度画像および深度画像の特徴に基づいた出力が得られるように、自己が有する関数の内部パラメータが調整されていることが好ましい。

　第１の発明において、輝度画像と、深度画像に相当する深度分解能を有する低分解能深度画像と、低分解能深度画像よりも深度分解能が高い高分解能深度画像とを有する教師データを用いた教師あり学習によって、ニューラルネットワークモデルの内部パラメータを調整する学習処理部をさらに設けてもよい。この場合、上記輝度画像および上記低分解能深度画像は、第１の撮像部と同等の深度分解能を有する第２の撮像部によって取得され、上記高分解能深度画像は、第２の撮像部とは異なる位置に配置され、第２の撮像部よりも深度分解能が高い第３の撮像部によって取得され、かつ、第２の撮像部と視点を一致させるために、座標変換が行われていることが好ましい。また、上記輝度画像および上記低分解能深度画像は、互いに異なる位置に配置された複数の第２の撮像部によって取得してもよい。

　第１の発明において、上記学習処理部は、誤差算出部と、誤差評価部と、勾配算出部とを有することが好ましい。誤差算出部は、ニューラルネットワークモデルの出力に基づいて低分解能深度画像を高分解能化した推定深度画像と、高分解能深度画像との誤差を示す推定誤差画像を算出する。誤差評価部は、推定誤差画像の誤差評価値を算出する。勾配算出部は、誤差評価値に基づいて、ニューラルネットワークモデルの内部パラメータの勾配を算出する。ここで、上記学習処理部は、第３の撮像部によって取得され、かつ、高分解能深度画像における深度値の確信度を示す確信度画像に基づいて、推定誤差画像に対するフィルタ処理を行うフィルタ処理部を有していてもよい。この場合、上記誤差評価部は、フィルタ処理部によってフィルタ処理が行われた推定誤差画像に基づいて、誤差評価値を算出することが好ましい。

　第２の発明は、以下のステップを有する処理をコンピュータに実行させることによって、深度画像を処理する深度処理プログラムを提供する。第１のステップでは、ニューラルネットワークモデルに、第１の撮像部で物体を撮像することによって取得された第１の輝度画像および第１の深度画像を入力する。ニューラルネットワークモデルは、物体の輝度画像および所定の深度分解能を有する深度画像の入力に対して、この深度画像よりも深度分解能が高い画像を出力する。第２のステップでは、ニューラルネットワークモデルの出力に基づいて、第１の深度画像を高分解能化する。

　第３の発明は、以下のステップを有し、深度画像を処理する深度処理方法を提供する。第１のステップでは、ニューラルネットワークモデルに、第１の撮像部で物体を撮像することによって取得された第１の輝度画像および第１の深度画像を入力する。ニューラルネットワークモデルは、物体の輝度画像および所定の深度分解能を有する深度画像の入力に対して、この深度画像よりも深度分解能が高い画像を出力する。第２のステップでは、ニューラルネットワークモデルの出力に基づいて、第１の深度画像を高分解能化する。

　ここで、第２および第３の発明において、上記第２のステップは、ニューラルネットワークモデルから出力され、かつ、第１の深度画像よりも深度分解能が高い深度値を示す推定深度画像を、第１の深度画像を高分解能化した処理結果として出力してもよい。また、これに代えて、上記第２のステップは、ニューラルネットワークモデルから出力され、かつ、第１の深度画像に対する深度差を示す推定深度差画像と、第１の深度画像とを加算することによって得られた加算深度画像を、第１の深度画像を高分解能化した処理結果として出力してもよい。

　第２および第３の発明において、上記ニューラルネットワークモデルは、入力された輝度画像および深度画像の特徴に基づいた出力が得られるように、自己が有する関数の内部パラメータが調整されていることが好ましい。

　第２および第３の発明において、輝度画像と、深度画像に相当する深度分解能を有する低分解能深度画像と、低分解能深度画像よりも深度分解能が高い高分解能深度画像とを有する教師データを用いた教師あり学習によって、ニューラルネットワークモデルの内部パラメータを調整する第３のステップをさらに設けてもよい。ここで、上記輝度画像および上記低分解能深度画像は、第１の撮像部と同等の深度分解能を有する第２の撮像部によって取得され、上記高分解能深度画像は、第２の撮像部とは異なる位置に配置され、第２の撮像部よりも深度分解能が高い第３の撮像部によって取得され、かつ、第２の撮像部と視点を一致させるために、座標変換が行われていることが好ましい。この場合、上記輝度画像および上記低分解能深度画像は、互いに異なる位置に配置された複数の第２の撮像部によって取得してもよい。

　第２および第３の発明において、上記第３のステップは、ニューラルネットワークモデルの出力に基づいて低分解能深度画像を高分解能化した推定深度画像と、高分解能深度画像との誤差を示す推定誤差画像を算出するステップと、推定誤差画像の誤差評価値を算出するステップと、誤差評価値に基づいて、ニューラルネットワークモデルの内部パラメータの勾配を算出するステップとを有することが好ましい。この場合、上記第３のステップは、誤差評価値の算出に先立ち、第３の撮像部によって取得され、かつ、高分解能深度画像における深度値の確信度を示す確信度画像に基づいて、推定誤差画像に対するフィルタ処理を行うステップをさらに有していてもよい。

　本発明によれば、ニューラルネットワークモデルの出力に基づいて、処理対象となる深度画像を高分解能化する。ニューラルネットワークモデルの入力として、物体の陰影から凹凸を推定可能な輝度画像と、深度のスケール情報が存在する深度画像とを組み合わせることで、第１の撮像部によって取得された深度のスケールを精度よく高分解能化することができる。

深度処理システムのブロック構成図深度画像の高分解能化の概念図高分解能化された深度画像の一例を示す図ニューラルネットワークモデルに対する教師あり学習の概念図学習処理部のブロック構成図教師データの収集時における深度カメラの配置の説明図盛り付けられたパスタの部分的な断面の深度イメージを示す図変形例に係る学習処理部のブロック構成図変形例に係る深度処理部のブロック構成図

　図１は、本実施形態に係る深度処理システムのブロック構成図である。この深度処理システム１は、例えば、既知の物体（ワーク）に対する所定の作業を行う産業用ロボットに実装、または、その物体認識システムの一部として用いられ、物体を撮像する撮像部によって取得された深度画像の深度スケールを高分解能化する。深度処理システム１は、物体を撮像する撮像部としての深度カメラ２と、深度処理部３と、ニューラルネットワークモデル４（以下、ニューラルネットワークを適宜「ＮＮ」と略称する。）と、学習処理部５とを主体に構成されている。

　深度カメラ２は、物体を含む撮像空間を撮像して、同一視点における輝度画像Ｂおよび深度画像Ｄlowを取得する。深度カメラ２としては、比較的安価で入手が容易なもの、例えば、インテル製の深度カメラ（製品名：”RealSense”）などを用いることができる。安価な深度カメラ２は、その深度分解能が低いものが大半であり、産業用ロボットの「目」として用いるには分解能が不足している。本実施形態は、このような深度カメラ２を用いて、ソフトウェア技術によって必要な深度分解能を確保するものである。

　本実施形態では、輝度画像Ｂの一例として、２５６階調のグレースケール画像を用いているが、グレースケール画像の代わりにＲＧＢ画像を用いてもよい。また、ＮＮモデル４への入力に先立ち、深度カメラ２によって取得された輝度画像Ｂに対して、歪み補正などの前処理を行ってもよい。

　本明細書において、「画像」とは、所定の単位領域毎の特性値が並んだ二次元的な集合をいい、輝度画像Ｂは輝度値の集合、深度画像Ｄlowは深度値の集合として、それぞれ定義される。また、後出する各種画像について、深度画像Ｄhighは深度値、深度推定画像Ｄeは深度値、推定深度画像Ｄe'は深度差、推定誤差画像Ｅ，Ｅ'は誤差値の集合として、それぞれ定義される。なお、特性値の単位領域は、典型的にはピクセルであるが、複数のピクセルによって構成されたピクセルブロックであっても構わない。また、輝度画像Ｂの単位領域がピクセル、深度画像Ｄlowの単位領域がピクセルブロックといった如く、特性値が異なる画像間において単位領域のサイズが異なっていてもよい。

　深度処理部３は、ＮＮモデル４の入出力を通じて、深度画像Ｄlowを高分解能化した深度画像Ｄhighを出力する。図２は、深度画像Ｄlowの高分解能化の概念図である。ＮＮモデル４には、深度カメラ２によって取得された輝度画像Ｂと、深度分解能が低い深度画像Ｄlowとが入力される。出力となる深度画像Ｄhighは、深度画像Ｄlowと同一のサイズで、かつ、深度画像Ｄlowと同一視点の深度画像であって、深度画像Ｄlowよりも深度スケールの分解能が高い。一例として、入力となる深度画像Ｄlowの階調を２００階調とすると、出力となる深度画像Ｄhighとして、入力の１０倍に相当する２０００階調まで高分解能化される。これは、１ｃｍ程度の深度分解能が１ｍｍ程度にまで高まることに相当する。

　なお、図２では、輝度画像Ｂおよび深度画像Ｄlowの画像全体の入力に基づいて、深度画像Ｄhighの画像全体が出力されることを概念的に示しているが、実際には、入力画像Ｂ，Ｄlowを複数のブロック（画像領域）に分割した上で、多数のコアで構成されたグラフィックス・プロセッシング・ユニット（ＧＰＵ）によって、それぞれのブロックが並列処理される。この点は、後述する教師あり学習においても同様である。

　図３は、深度画像Ｄlowを高分解能化した深度画像Ｄhighの一例を示す図であって、皿に盛り付けられたパスタの深度画像を示す。同図は、視覚的な理解を容易にすべく、深度値の大小をグレースケール（濃淡）として表している。同図左の深度画像Ｄlowでは、個々の麺に起因した凹凸を判別することは困難である。これに対して、同図右の深度画像Ｄhighでは、このような凹凸を判別できる程に精細な深度スケールを有していることが看て取れる。

　ＮＮモデル４は、ニューラルネットワークを主体に構築されており、所定の問題解決能力を備えている。ここで、「ニューラルネットワーク」とは、ニューロンを数理モデル化したものの組み合わせであって、ニューラルネットワークとしての最も原始的な構成のみならず、畳み込みニューラルネットワーク（ＣＮＮ）や再起型ニューラルネットワーク（ＲＮＮ）の如く、その派生形や発展形などを広く包含する。本実施形態では、ＮＮモデル４のアーキテクチャとして、画像処理で優れた性能を発揮するＣＮＮを採用している。ＣＮＮは、主に畳み込み層と、プーリング層とによって構成されており、情報を符号化する際には畳み込み、情報を復号化する際には逆畳み込みの処理が行われる。畳み込み層は、画像の局所的な特徴を抽出し、プーリング層は、局所的な特徴をまとめ上げる処理を行う。このような処理を通じて、ＣＮＮでは、入力画像の特徴を維持しながら、画像が抽象化され、情報量を大幅に圧縮できる。

　ＮＮモデル４は、所定の関数（Ｙ＝ｆ(Ｘ，θ))を備えており、その内部パラメータθ、具体的には、ニューラルネットワークの結合重みは、入力画像Ｂ，Ｄlowの特徴に基づいた適切な出力画像Ｄhigh（正確には、後述する推定深度画像Ｄe）が得られるように、事前の学習によって予め調整されている。なお、ＮＮモデル４の出力である推定深度画像Ｄeが深度値の集合として定義されている場合、ＮＮモデル４より出力された推定深度画像Ｄeは、深度画像Ｄhighとして深度処理部３からそのまま出力される。

　学習処理部５は、教師データを用いた教師あり学習によって、ＮＮモデル４の内部パラメータθを調整する。図４は、ＮＮモデル４に対する教師あり学習の概念図である。教師データは、同一視点によって単位領域の位置的な対応関係が取れている３つの画像、すなわち、輝度画像Ｂ（入力データ）、深度分解能が低い深度画像Ｄlow（入力データ）、および、深度画像Ｄlowよりも深度分解能が高い深度画像Ｄhigh（正解データ）である。輝度画像Ｂおよび深度画像Ｄlowは、深度カメラ２と同様、深度分解能が低い汎用的かつ安価な深度カメラによって取得される。また、輝度画像Ｂに対しては、歪み補正などの前処理が行われていてもよい。一方、深度画像Ｄhighは、深度カメラ２よりも深度分解能が高い産業用途などに供される高価な深度カメラによって取得される。このような高分解能深度カメラとしては、例えば、フォトネオ社の産業用高精度リアルタイム３Ｄスキャナ（製品名：”PhoXi Scanner”）などを用いることができる。

　ＮＮモデル４に対する教師あり学習の概略としては、まず、輝度画像Ｂおよび深度画像ＤlowがＮＮモデル４に入力される。つぎに、ＮＮモデル４から出力された推定深度画像Ｄeと、正解データである深度画像Ｄhighとが比較され、両者の誤差（差分）が算出される。そして、この誤差がＮＮモデル４にフィードバックされ、誤差が最小になるように、ＮＮモデル４の内部パラメータθが調整される。以上のような処理を大量かつ多様な教師データを用いて繰り返し実行することで、様々な入力に対して適切な出力が得られるように、ＮＮモデル４が最適化される。

　なお、詳細については後述するが、教師データを収集する際に用いられる高分解能深度カメラが確信度画像Ｃを生成・出力する機能を備えている場合、教師データの一部として、深度画像Ｄhighにおける深度値の確信度を表す確信度画像Ｃを用いてもよい。

　図５は、学習処理部５の詳細な構成を示すブロック構成図である。この学習処理部５は、誤差算出部５ａと、フィルタ処理部５ｂと、誤差評価部５ｃと、勾配算出部５ｄとを有する。教師あり学習では、教師データである輝度画像Ｂおよび深度画像Ｄlowの入力に対して、上述したＮＮモデル４の一形態であるＮＮモデル４Ａの出力、すなわち、推定深度画像Ｄeが、正解データである深度画像Ｄhighに基づいて評価される。具体的には、まず、誤差算出部５ａは、推定深度画像Ｄeと、正解データである深度画像Ｄhighとに基づいて、誤差の二次元的な集合である推定誤差画像Ｅを算出する。この誤差は、推定深度画像Ｄeの深度値と、深度画像Ｄhighにおける位置的に対応した深度値との差分を二乗した値として、単位領域毎に算出される。

　フィルタ処理部５ｂは、教師データの一部である確信度画像Ｃに基づいて、推定深度画像Ｄeに対するフィルタ処理を行う。具体的には、確信度画像Ｃを構成する確信度（深度画像Ｄhighにおける深度値の確からしさ）のそれぞれを所定の判定しきい値αと比較し、確信度が低いと判定された単位領域については、誤差推定画像Ｄeにおける誤差をノイズとみなして、その値を０に変更する。このようなフィルタ処理によって、確信度の低い単位領域については、ＮＮモデル４Ａの学習（内部パラメータθの更新）に影響を及ぼさないことが保証される。なお、ノイズの影響を考慮する必要がないのであれば、本フィルタ処理は省略しても構わない。

　誤差評価部５ｃは、フィルタ処理部５ｂによってフィルタ処理が行われた推定誤差画像Ｅ’（フィルタ処理の省略時には推定誤差画像Ｅ）を評価し、その評価結果を誤差評価値Ｖeとして算出する。一般に、ディープラーニングモデルの学習は、目的関数の最小化の過程で内部パラメータを更新することによって達成され、この目的関数は、誤差関数と正則化項との和で表現されることが多い。本実施形態では、誤差平均（ＭＡＥ；Mean Absolute Error）を用いているが、これに正規化項を含めたものを目的関数としてもよい。また、誤差平均の代わりに、ＮＮモデル４の出力が連続値であれば、ＭＳＥ（Mean Squared Error）や、それに類するものでもよい。さらに、ＮＮモデル４の出力が離散値であれば、クロスエントロピーの平均値であってもよい。

　勾配算出部５ｄは、誤差評価値Ｖeに基づいて、ＮＮモデル４Ａの内部パラメータθの勾配を算出する。例えば、誤差平均値Ｖeとして誤差平均を用いる場合、誤差平均が最小になるように、内部パラメータθの勾配が算出される。そして、バッチ勾配降下法、確率的勾配降下法、ミニバッチ勾配降下法といった既知の手法を用いて、ＮＮモデル４Ａの更新が行われる。

　なお、以上の誤差評価方法では、単位領域毎に誤差を算出しているが、例えば、ＧＡＮ（Generative Adversarial Network）と呼ばれる学習の仕組みで用いられる識別器にて識別誤差（本物か偽物かの分類誤差）を算出し、これを誤差評価値Ｖeとして用いれば、単位領域毎の誤差を算出することなく、画像全体で誤差を評価することも可能である。この場合、図５に示した３つのブロック５ａ～５ｃは、識別器に相当する１つのブロックに置き換えられる。また、フィルタ処理は、識別器に入力される前の推定深度画像Ｄeおよび深度画像Dhighに対して行われる。

　ところで、物体の認識に際して、深度カメラ２の取付位置に依存することなく、ＮＮモデル４から常に信頼性の高い出力を得るためには、教師あり学習時において、大量の教師データを用いることのみならず、多様な視点の教師データを用いる必要がある。かかる観点から、教師データの収集に際しては、図６に示すように、物体Ａの周囲に複数の深度カメラｐ１～ｐ９を配置し、これらを用いて、教師データを同時並行的に収集することが好ましい。具体的には、認識すべき物体Ａの周囲に、アルミなどの剛性の高い材料で形成された立方体状のフレーム６が配置され、このフレーム６における既知の位置に深度カメラｐ１～ｐ９が取り付けられる。高分解能深度カメラｐ１は、物体Ａの直上に位置しており、深度画像Ｄhigh（および確信度画像Ｃ）を取得する。また、これ以外の８つの低分解能深度カメラｐ２～ｐ９は、物体Ａの上方における異なる位置に配置されており、それぞれが輝度画像Ｂおよび深度画像Ｄlowを取得する。低分解能深度カメラｐ２～ｐ９は、上述した深度カメラ２と同等の深度分解能を有しており、これによって取得される深度画像Ｄlowは、深度カメラ２によって取得される深度画像Ｄlowに相当する深度分解能を有する。また、高分解能深度カメラｐ１は、深度カメラ２よりも高い深度分解能を有する。これらの深度カメラｐ１～ｐ９により、異なる視点の教師データを効率的に収集できる。

　その際、高分解能深度カメラｐ１によって取得された深度画像Ｄhighは、そのままでは、低分解能深度カメラｐ２～ｐ９によって取得された深度画像Ｄlowおよび輝度画像Ｂの正解データとして用いることはできない。なぜなら、高分解能深度カメラｐ１と、これと異なる位置に配置された低分解能深度カメラｐ２～ｐ９とでは、視点が一致しておらず、深度画像Ｄhighのどの単位領域が深度画像Ｄlow等のどの単位領域に対応するのかといった位置的な対応関係が取れていないからである。そこで、深度画像Ｄhighをそれぞれの深度画像Ｄlow等の視点に一致させるべく、深度画像Ｄhighに対して、アフィン変換などを用いた座標変換が個別に行われる。深度画像Ｄhighの座標変換は、深度画像Ｄhighおよび確信度画像Ｃに対する中間座標への変換と、これに続くカメラ座標への変換という２つのプロセスを経て行うことができる。中間座標の変換では、ArUcoマーカーなどを用いて生成された座標変換関数が用いられる。そして、中間座標に変換された深度画像Ｄhighおよび確信度画像Ｃは、低分解能深度カメラｐ２～ｐ９の各カメラ座標に更に変換される。

　このように、本実施形態によれば、事前の十分な学習によって内部パラメータθが適切に調整されたＮＮモデル４を用いて、輝度画像Ｂおよび深度画像Ｄlowの入力に基づいた推定深度画像Ｄeの出力を得る。そして、この推定深度画像Ｄeに基づいて、深度画像Ｄlowが高分解能化される。一般に、輝度画像Ｂだけでは、物体の陰影から凹凸を推定することはできても、深度のスケール情報までは復元できない。また、深度画像Ｄlowだけでは、深度の情報が足らず、信頼性のある高分解能化は困難である。そこで、本実施形態では、ＮＮモデル４の入力として、物体の陰影から凹凸を推定可能な輝度画像Ｂと、深度のスケール情報が存在する深度画像Ｄlowとを組み合わせている。

　図７は、物体の一例であるパスタの部分的な断面の深度イメージを示す図である。同図下の深度分布において、実線は、低分解能な深度カメラ２の深度を示し、点線は、これよりも高分解能な推定深度を示している。輝度画像Ｂの陰影から麺と麺による相対的な凹凸が局所的に推定でき、これを深度カメラ２による深度画像Ｄlowと組み合わせることで、絶対的な凹凸を各部分で推定できる。このように、ディープラーニングにおいて、深度のスケール情報および凹凸の推定の双方を考慮して、深度画像Ｄlowよりも深度分解能が高い推定深度画像Ｄeを得ることで、深度カメラ２によって取得された深度のスケールを精度よく高分解能化することが可能になる。その結果、例えば、産業用ロボットの「目」などの用途において、物体を高い精度で認識でき、高い作業精度を実現できる。なお、本発明の用途は、産業用ロボットの用途に限定されるものではなく、高分解能な深度画像を必要とする様々な用途に対して、広く適用可能であることはいうまでもない。

　また、本実施形態によれば、輝度画像Ｂ、深度画像Ｄlow、および、深度画像Ｄhigh（さらに、必要に応じて確信度画像Ｃ）を有する教師データを用いた教師あり学習を行うことで、ＮＮモデル４の内部パラメータθを適切かつ良好に調整することができる。

　さらに、本実施形態によれば、教師データの収集に際して、互いに異なる位置に複数の深度カメラを配置し、多様な視点のデータを収集することで、物体の認識時における深度カメラ２の取付位置に依存することなく、ＮＮモデル４から常に信頼性の高い出力（推定深度画像Ｄe）を得ることができる。

　なお、上述した実施形態では、ＮＮモデル４Ａが推定深度画像Ｄeとして深度値を出力する例について説明したが、ＮＮモデル４の出力としては、深度値そのものではなく、入力された深度画像Ｄlowとの深度差（高分解能化された差分値）であってもよい。

　図８は、このような変形例に係る学習処理部５のブロック構成図である。ＮＮモデル４の一形態であるＮＮモデル４Ｂは、深度値を推定する上述したＮＮモデル４Ａとは異なり、深度差を推定するためのモデルとして構築されており、入力された深度画像Ｄlowの深度値との差分である深度差の集合として、推定深度差画像Ｄe’を出力する。そして、誤差算出部５ａは、低分解能深度画像Ｄlowに推定深度差画像Ｄe’を単位領域毎に加算することによって加算深度画像を算出した上で、この加算深度画像を高分解能深度画像と比較することによって、推定誤差画像Ｅを算出する。

　図９は、深度処理部３のブロック構成図である。深度処理部３は、加算器３ａを備えており、深度カメラ２によって取得された深度画像Ｄlowの深度値と、ＮＮモデル４Ｂから出力された推定深度画像Ｄe’の深度差とを単位領域毎に加算する。そして、これによって得られた加算深度画像（加算値の集合）を、深度画像Ｄhighとして出力する。

　以上に述べた事項以外については、上述した実施形態と同様なので、同一の符号を付して、ここでの説明を省略する。

　なお、物体を撮像して画像Ｂ，Ｄlowを取得する撮像部としては、典型的には、深度カメラ２が想定されるが、これらの画像Ｂ，Ｄlowは別個のユニットで取得してもよい。この場合、画像Ｂ，Ｄlowの一方に対して座標変換を施し、他方の画像と同一視点になるように、換言すれば、画像Ｂ，Ｄlow間における単位領域の位置的な対応関係が取れるように、ソフトウェア的な処理を行えばよい。

　さらに、本発明は、上述した深度処理システム１を構成する機能ブロックをコンピュータで等価的に実現し、深度カメラ２によって取得された深度画像Ｄlowを高分解能化するコンピュータ・プログラム（深度処理プログラム）として捉えることもできる。

　１　深度処理システム
　２　深度カメラ
　３　深度処理部
　３ａ　加算器
　４，４Ａ，４Ｂ　ニューラルネットワークモデル（ＮＮモデル）
　５　学習処理部
　５ａ　誤差算出部
　５ｂ　フィルタ処理部
　５ｃ　誤差評価部
　５ｄ　勾配算出部
　６　フレーム

Claims

　深度画像を処理する深度処理システムにおいて、
　物体の輝度画像および所定の深度分解能を有する深度画像の入力に基づいて、当該深度画像よりも深度分解能が高い画像を出力するニューラルネットワークモデルと、
　物体を撮像して、第１の輝度画像および第１の深度画像を取得する第１の撮像部と、
　前記第１の撮像部によって取得された第１の輝度画像および第１の深度画像の入力に基づく前記ニューラルネットワークモデルの出力に基づいて、前記第１の深度画像を高分解能化する深度処理部と
を有することを特徴とする深度処理システム。
　前記深度処理部は、前記ニューラルネットワークモデルから出力され、かつ、前記第１の深度画像よりも深度分解能が高い深度値を示す推定深度画像を、前記高分解能化した処理結果として出力することを特徴とする請求項１に記載された深度処理システム。
　前記深度処理部は、前記ニューラルネットワークモデルから出力され、かつ、前記第１の深度画像に対する深度差を示す推定深度差画像と、前記第１の深度画像とを加算することによって得られた加算深度画像を、前記高分解能化した処理結果として出力することを特徴とする請求項１に記載された深度処理システム。
　前記ニューラルネットワークモデルは、入力された輝度画像および深度画像の特徴に基づいた出力が得られるように、自己が有する関数の内部パラメータが調整されていることを特徴とする請求項１に記載された深度処理システム。
　前記輝度画像と、前記深度画像に相当する深度分解能を有する低分解能深度画像と、前記低分解能深度画像よりも深度分解能が高い高分解能深度画像とを有する教師データを用いた教師あり学習によって、前記ニューラルネットワークモデルの内部パラメータを調整する学習処理部をさらに有することを特徴とする請求項４に記載された深度処理システム。
　前記輝度画像および前記低分解能深度画像は、前記第１の撮像部と同等の深度分解能を有する第２の撮像部によって取得され、
　前記高分解能深度画像は、前記第２の撮像部とは異なる位置に配置され、前記第２の撮像部よりも深度分解能が高い第３の撮像部によって取得され、かつ、前記第２の撮像部と視点を一致させるために、座標変換が行われていることを特徴とする請求項５に記載された深度処理システム。
　前記輝度画像および前記低分解能深度画像は、互いに異なる位置に配置された複数の前記第２の撮像部によって取得されることを特徴とする請求項６に記載された深度処理システム。
　前記学習処理部は、
　前記ニューラルネットワークモデルの出力に基づいて前記低分解能深度画像を高分解能化した推定深度画像と、前記高分解能深度画像との誤差を示す推定誤差画像を算出する誤差算出部と、
　前記推定誤差画像の誤差評価値を算出する誤差評価部と、
　前記誤差評価値に基づいて、前記ニューラルネットワークモデルの内部パラメータの勾配を算出する勾配算出部と
を有することを特徴とする請求項５から７のいずれかに記載された深度処理システム。
　前記学習処理部は、
　前記第３の撮像部によって取得され、かつ、前記高分解能深度画像における深度値の確信度を示す確信度画像に基づいて、前記推定誤差画像に対するフィルタ処理を行うフィルタ処理部をさらに有し、
　前記誤差評価部は、前記フィルタ処理部によってフィルタ処理が行われた推定誤差画像に基づいて、前記誤差評価値を算出することを特徴とする請求項８に記載された深度処理システム。
　深度画像を処理する深度処理プログラムにおいて、
　物体の輝度画像および所定の深度分解能を有する深度画像の入力に対して、当該深度画像よりも深度分解能が高い画像を出力するニューラルネットワークモデルに、第１の撮像部で物体を撮像することによって取得された第１の輝度画像および第１の深度画像を入力する第１のステップと、
　前記ニューラルネットワークモデルの出力に基づいて、前記第１の深度画像を高分解能化する第２のステップと
を有する処理をコンピュータに実行させることを特徴とする深度処理プログラム。
　前記第２のステップは、前記ニューラルネットワークモデルから出力され、かつ、前記第１の深度画像よりも深度分解能が高い深度値を示す推定深度画像を、前記第１の深度画像を高分解能化した処理結果として出力することを特徴とする請求項１０に記載された深度処理プログラム。
　前記第２のステップは、前記ニューラルネットワークモデルから出力され、かつ、前記第１の深度画像に対する深度差を示す推定深度差画像と、前記第１の深度画像とを加算することによって得られた加算深度画像を、前記第１の深度画像を高分解能化した処理結果として出力することを特徴とする請求項１０に記載された深度処理プログラム。
　前記ニューラルネットワークモデルは、入力された輝度画像および深度画像の特徴に基づいた出力が得られるように、自己が有する関数の内部パラメータが調整されていることを特徴とする請求項１０に記載された深度処理プログラム。
　前記輝度画像と、前記深度画像に相当する深度分解能を有する低分解能深度画像と、前記低分解能深度画像よりも深度分解能が高い高分解能深度画像とを有する教師データを用いた教師あり学習によって、前記ニューラルネットワークモデルの内部パラメータを調整する第３のステップをさらに有することを特徴とする請求項１３に記載された深度処理プログラム。
　前記輝度画像および前記低分解能深度画像は、前記第１の撮像部と同等の深度分解能を有する第２の撮像部によって取得され、
　前記高分解能深度画像は、前記第２の撮像部とは異なる位置に配置され、前記第２の撮像部よりも深度分解能が高い第３の撮像部によって取得され、かつ、前記第２の撮像部と視点を一致させるために、座標変換が行われていることを特徴とする請求項１４に記載された深度処理プログラム。
　前記輝度画像および前記低分解能深度画像は、互いに異なる位置に配置された複数の前記第２の撮像部によって取得されることを特徴とする請求項１３に記載された深度処理プログラム。
　前記第３のステップは、
　前記ニューラルネットワークモデルの出力に基づいて前記低分解能深度画像を高分解能化した推定深度画像と、前記高分解能深度画像との誤差を示す推定誤差画像を算出するステップと、
　前記推定誤差画像の誤差評価値を算出するステップと、
　前記誤差評価値に基づいて、前記ニューラルネットワークモデルの内部パラメータの勾配を算出するステップと
を有することを特徴とする請求項１４から１６のいずれかに記載された深度処理プログラム。
　前記第３のステップは、
　前記誤差評価値の算出に先立ち、前記第３の撮像部によって取得され、かつ、前記高分解能深度画像における深度値の確信度を示す確信度画像に基づいて、前記推定誤差画像に対するフィルタ処理を行うステップをさらに有することを特徴とする請求項１７に記載された深度処理プログラム。
　深度画像を処理する深度処理方法において、
　物体の輝度画像および所定の深度分解能を有する深度画像の入力に対して、当該深度画像よりも深度分解能が高い画像を出力するニューラルネットワークモデルに、第１の撮像部で物体を撮像することによって取得された第１の輝度画像および第１の深度画像を入力する第１のステップと、
　前記ニューラルネットワークモデルの出力に基づいて、前記第１の深度画像を高分解能化する第２のステップと
を有することを特徴とする深度処理方法。