WO2024028988A1

WO2024028988A1 - 画像処理装置、方法およびプログラム

Info

Publication number: WO2024028988A1
Application number: PCT/JP2022/029700
Authority: WO
Inventors: 崇裕松元; 裕千明; 拓也犬童
Original assignee: 日本電信電話株式会社
Priority date: 2022-08-02
Filing date: 2022-08-02
Publication date: 2024-02-08

Abstract

一実施形態に係る画像処理装置は、色情報を有しない第１の点群データおよび前記第１の点群データの近傍に位置して色情報を有する第２の点群データを取得する取得部と、前記取得部により取得された前記第１および第２の点群データをニューラルネットワークに入力することで、前記第１の点群データについて色情報が推定された点群データを出力する推定処理部と、を有する。

Description

画像処理装置、方法およびプログラム

　本発明の実施形態は、画像処理装置、方法およびプログラムに関する。

　物体または空間の３次元構造を表現する方法の１つに点群（point cloud）がある。この点群は物体または空間をLiDAR（Light Detecting And Ranging）またはカメラ（camera）を用いて計測することで生成が可能である。　
　しかしながら、計測された点群は、LiDARもしくはカメラの性能、または計測位置、物体もしくは空間の形状の問題により、LiDARにより照射されたレーザー（laser）が届かなかったり、物体または空間の表面の拡散反射光をカメラで計測できなかったり、などにより、点群データ（data）が欠損してしまう部分が存在する。

　また、空間の点群計測においては、LiDARまたはカメラで計測されたときに、一時的な駐車車両、または部屋に置かれた段ボール（cardboard）などの、計測時には置かれていたが、最終的な点群データに含まれることが望ましくない障害物が含まれてしまう場合も存在する。

　しかしながら、このような障害物を計測後の処理で削除することを考えると、障害物により隠されていた駐車車両の影にある道路、または段ボールの影にある部屋の床面などの点群は、上記障害物により計測できていなかったため、欠損部分となってしまう。

　これらの欠損部分を、機械学習された、点群を直接扱うニューラルネットワーク（neural network）によって推定して補完するPoint Cloud Completionの技術として様々な手法が提案されている。

　Point Cloud Completionの技術は、出力の違いによって大きく２種類に分類することができる。　
　１つ目は、例えば非特許文献１に開示されるように、補完したい欠損点群、すなわち一部が欠損した点群をAとし欠損部分をBとしたときに、Aを入力としてBが推定された結果であるB´を出力するニューラルネットワークである。
　２つ目は、例えば非特許文献２に開示されるように、Aを入力としてA＋Bの全体を推定した結果である「A´＋B´」を出力するニューラルネットワークである。

　しかしながら、上記Point Cloud Completionの手法は、いずれも、点群の幾何形状補完のみを扱っているため、上記の点群Aが、各点が幾何的な位置情報と色情報を有する点群、いわゆるカラー（color）点群であった場合にも、推定結果であるB´または「A´+B´」は、色情報を有しない点群、いわゆる非カラー点群となり、色情報の復元を実現することができない。

　また、例えば非特許文献３には、非カラー点群を入力としてカラー点群を出力するニューラルネットワークおよび敵対的生成ネットワーク（GAN(Generative Adversarial Network)）による学習モデル（model）生成手法が開示されている。

Huang, Zitian, et al. "Pf-net: Point fractal network for 3d point cloud completion." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020. Yuan, W., Khot, T., Held, D., Mertz, C., & Hebert, M. (2018, September). Pcn: Point completion network. In 2018 International Conference on 3D Vision (3DV) (pp. 728-737). IEEE. Liu, J., Dai, S., & Li, X. (2019, September). Pccn: Point cloud colorization network. In 2019 IEEE International Conference on Image Processing (ICIP) (pp. 3716-3720). IEEE.

　上記の非特許文献３に開示されたようなカラー点群の出力の手法は、以下の２つの課題がある。　
　１つ目は、色情報を有しない点群の幾何情報のみを入力とする場合、幾何形状からみて尤もらしい複数の色が存在する場合があるという課題である。
　例えば、色情報を推定したい点群の幾何形状が「自動車」であるとする。このとき従来技術のニューラルネットワークで推測される自動車のボディ（body）部分の点群の色として、白、赤、または黒などの尤もらしい複数の色が存在するため、正しい色に定まらない可能性が高まる。　
　また、例えば野外空間が計測された点群への着色について、同じ場所および形状の空間であっても、朝と夕方では空間の色は全く異なるため、幾何形状のみからでは正しい色は一意に定まらない。

　この問題は、前述のPoint Cloud Completionにおいて、欠損点群Aから、補完後の非カラー点群「A´+B´」を生成し、この「A´+B´」のカラー、すなわち色情報を推定する場合にも、この推定された「A´+B´」の点群の色が、Aの色と全く異なる状態を生んでしまうことを意味する。

　２つ目は、幾何形状が不十分な場合に当該幾何形状の部分の色推定が難しいという課題である。この課題が生じる例としては、色情報の推定対象である点群が「自動車」の屋根の一部であったときに、この点群の形状だけでは、当該点群が自動車の屋根の一部なのか、机の天板の一部なのかの区別がつかない場合、点群は「自動車」のような色が推定される可能性と、机の天板のような色が推定される場合の２つがあり得ることが挙げられる。

　この課題は、前述のPoint Cloud Completionにおいて、欠損点群Aから、補完部分の非カラー点群B´を生成した場合に、この非カラー点群B´だけを入力とする手法では、非カラー点群B´が、単体で色推定に十分な形状を有しない場合、正しい色推定が困難な状態を生んでしまうことを意味する。

　この発明は、上記事情に着目してなされたもので、その目的とするところは、色情報を有する点群データの欠損部分を正しい色情報とともに適切に推定することができるようにした画像処理装置、方法およびプログラムを提供することにある。

　本発明の一態様に係る画像処理装置は、色情報を有しない第１の点群データおよび前記第１の点群データの近傍に位置して色情報を有する第２の点群データを取得する取得部と、前記取得部により取得された前記第１および第２の点群データをニューラルネットワークに入力することで、前記第１の点群データについて色情報が推定された点群データを出力する推定処理部と、を備える。

　本発明の一態様に係る画像処理装置は、色情報を有しない第１の点群データおよび前記第１の点群データの近傍に位置して色情報を有する第２の点群データを取得する取得部と、前記取得部により取得された前記第１および第２の点群データをニューラルネットワークに入力することで、前記第１の点群データにおける色情報が推定された点群データを出力する推定処理部と、を備え、前記ニューラルネットワークは、前記第１の点群データを表すテンソルに要素数のベクトルを追加し、前記追加された結果における点群データの数を圧縮し、前記第２の点群データを表すテンソルに要素数のベクトルを追加し、当該追加された結果における点群データの数を圧縮し、前記第１の点群データを表すテンソルに要素数のベクトルを追加した結果における点群データの数を圧縮した結果に、前記第２の点群データを表すテンソルに要素数のベクトルを追加した結果における点群データの数を圧縮した結果を同じ数の点群データ同士で結合し、第１の数の前記第１の点群データの表すテンソルに要素数のベクトルを追加した結果における点群データの数を圧縮した結果に、前記第１の数より大きい第２の数の前記第１の点群データの表すテンソルに要素数のベクトルを追加した結果を結合した結果に基づいて、前記第１の点群データについて色情報が推定された点群データを出力し、色情報を有する点群データを取得し、前記点群データに基づいて、色情報を有する点群データである正解データ、色情報を有しない点群データ、および色情報を有する点群データにおける一部分が除かれた点群データを生成し、前記生成した、前記色情報を有しない点群データおよび、前記色情報を有する点群データにおける一部分が除かれた点群データを前記ニューラルネットワークに入力することで出力された、色情報が推定された前記一部分のデータを取得し、この取得されたデータおよび前記正解データに基づいて前記ニューラルネットワークに係る損失関数を計算し、前記計算した損失関数に基づいて、前記ニューラルネットワークのパラメータを更新するパラメータ更新部を備える。

　本発明の一態様に係る画像処理方法は、画像処理装置により行なわれる方法であって、前記画像処理装置の取得部により、色情報を有しない第１の点群データおよび前記第１の点群データの近傍に位置して色情報を有する第２の点群データを取得し、前記画像処理装置の推定処理部により、前記取得部により取得された前記第１および第２の点群データをニューラルネットワークに入力することで、前記第１の点群データについて色情報が推定された点群データを出力する。

　本発明の一態様に係る画像処理方法は、画像処理装置により行なわれる方法であって、前記画像処理装置の取得部により、色情報を有しない第１の点群データおよび前記第１の点群データの近傍に位置して色情報を有する第２の点群データを取得し、前記画像処理装置の推定処理部により、前記取得部により取得された前記第１および第２の点群データをニューラルネットワークに入力することで、前記第１の点群データについて色情報が推定された点群データを出力し、前記ニューラルネットワークは、前記第１の点群データを表すテンソルに要素数のベクトルを追加し、前記追加された結果における点群データの数を圧縮し、前記第２の点群データを表すテンソルに要素数のベクトルを追加し、当該追加された結果における点群データの数を圧縮し、前記第１の点群データを表すテンソルに要素数のベクトルを追加した結果における点群データの数を圧縮した結果に、前記第２の点群データを表すテンソルに要素数のベクトルを追加した結果における点群データの数を圧縮した結果を同じ数の点群データ同士で結合し、第１の数の前記第１の点群データの表すテンソルに要素数のベクトルを追加した結果における点群データの数を圧縮した結果に、前記第１の数より大きい第２の数の前記第１の点群データの表すテンソルに要素数のベクトルを追加した結果を結合した結果に基づいて、前記第１の点群データについて色情報が推定された点群データを出力し、前記画像処理装置のパラメータ更新部により、色情報を有する点群データを取得し、前記点群データに基づいて、色情報を有する点群データである正解データ、色情報を有しない点群データ、および色情報を有する点群データにおける一部分が除かれた点群データを生成し、前記生成した、前記色情報を有しない点群データおよび、前記色情報を有する点群データにおける一部分が除かれた点群データを前記ニューラルネットワークに入力することで出力された、色情報が推定された前記一部分のデータを取得し、この取得されたデータおよび前記正解データに基づいて前記ニューラルネットワークに係る損失関数を計算し、前記計算した損失関数に基づいて、前記ニューラルネットワークのパラメータを更新する。

　本発明によれば、色情報を有する点群データの欠損部分を正しい色情報とともに適切に推定することができる。

図１は、本発明の一実施形態で用いられるニューラルネットワークの入出力の第１の例を示す図である。図２Ａは、MLP（Multilayer perceptron）層の実装の一例を示す図である。図２Ｂは、MLP層の実装の一例を示す図である。図２Ｃは、MLP層の実装の一例を示す図である。図３は、SA層（Set Abstraction Layer）の実装の一例を示す図である。図４は、FP層（Feature Propagation Layer）の実装の第１の例を示す図である。図５は、FP層の実装の第２の例を示す図である。図６は、本発明の一実施形態で用いられるニューラルネットワークの入出力の第２の例を示す図である。図７は、PTF層（Point Transformer Layer）の実装例を示す図である。図８Ａは、PTF層の実装例を示す図である。図８Ｂは、PTF層の実装例を示す図である。図９は、PTF層の実装例を示す図である。図１０は、識別ネットワークの第１の例を示す図である。図１１は、MLP層の実装の例を示す図である。図１２は、識別ネットワークの第２の例を示す図である。図１３は、ニューラルネットワークの学習用データの生成のプロセス（process）の第１の例を説明する図である。図１４は、ニューラルネットワークの学習用データの生成のプロセスの第２の例を説明する図である。図１５は、第１の実施形態に係る画像処理システム（system）の全体構成の一例を示すブロック図（block Diagram）である。図１６は、第１の実施形態で用いられる色推定DNN（Deep Neural Network）の一例を示す図である。図１７は、学習用点群DBのデータ保持例を示す図である。図１８は、色推定DNNパラメータ（parameters）DBのデータ保持例を示す図である。図１９は、第１の実施形態に係る計算端末の学習操作部による処理動作の一例を示すフローチャート（flowchart）である。図２０は、第１の実施形態に係る計算端末の色推定DNN処理部における処理動作の一例を示すフローチャートである。図２１は、第１の実施形態に係る計算端末の入力操作部の処理動作の一例を示すフローチャートである。図２２は、第２の実施形態に係る画像処理システムの全体構成の一例を示す図である。図２３は、第２の実施形態で用いられる色推定DNNの一例を示す図である。図２４は、第２の実施形態で用いられる識別DNNの一例を示す図である。図２５は、識別DNNパラメータのデータ保持の一例を示す図である。図２６は、第２の実施形態に係る計算端末の学習操作部による処理動作の一例を示すフローチャートである。図２７は、第２の実施形態に係る識別DNN処理部における処理動作の手順の一例を示すフローチャートである。図２８は、本発明の一実施形態に係る画像処理システムの計算端末のハードウエア（hardware）構成の一例を示すブロック図である。

　以下、図面を参照しながら、この発明に係わる一実施形態を説明する。　
　本実施形態では、色情報の推定の対象である点群の近傍に存在する幾何情報および色情報を有するN点の色付き点群（カラー点群）（色有り点群データとも称される）はN(x_i, y_i, z_i, r_i, g_i, b_i)と記述される。　
　このときiは、「i=1, 2, 3, …, N」であり、x_i, y_i, z_iは、上記点群の幾何情報であり、r_i, g_i, b_iは、上記点群の色情報である。

　また、本実施形態では、色推定の対象であるN´点の色無し点群（非カラー点群）はN´(x´_i´, y´_i´, z´_i´)と記述され、N´点の色無し点群の各点に正しい色情報が付いた点群はN´(x´_i´, y´_i´, z´_i´, r´_i´, g´_i´, b´_i´)と記述される。　
　このときi´は「i´=1, 2, 3, …, N´」であり、x´_i´, y´_i´, z´_i´は、上記色無し点群の幾何情報であり、r´_i´, g´_i´, b´_i´は、上記色無し点群の色情報である。

　本実施形態では、N点のカラー点群であるN(x_i, y_i, z_i, r_i, g_i, b_i)とN´点の非カラー点群であるN´(x´_i´, y´_i´, z´_i´)を入力として、この非カラー点群N´(x´_i´, y´_i´, z´_i´)の色情報が推定されたカラー点群N´(x´_i´, y´_i´, z´_i´, r´_i´, g´_i´, b´_i´)の推定結果を出力するニューラルネットワークと、同ニューラルネットワークの学習モデルの生成手法に関する。　
　本実施形態において、前述のPoint Cloud Completionにおける欠損点群Aは、上記幾何情報および色情報を有するN点の色付き点群N(x_i, y_i, z_i, r_i, g_i, b_i)に該当し、欠損部分の補完結果である非カラー点群B´または「A´＋B´」は、上記色推定の対象であるN´点の色無し点群N´(x´_i´, y´_i´, z´_i´)に該当する。

　本実施形態では、従来の上記２つの課題を解決するため、従来のように色情報を有しない点群の幾何情報を入力とすることに加え、色推定の対象である点群の近傍にある色付き点群の幾何情報および色情報も入力できるようにニューラルネットワークアルゴリズムを拡張することについて説明する。また、本実施形態では、同ニューラルネットワークの学習モデルの生成手法についても説明する。

　（ニューラルネットワークアルゴリズム（第１の例））
　ここでは、色情報を有しない点群の幾何情報を入力とすることに加え、色情報の推定対象である点群の近傍に存在する色付き点群の幾何情報および色情報も入力可能なニューラルネットワークアルゴリズム（algorithm）の第１の例について述べる。

　図１は、本発明の一実施形態で用いられるニューラルネットワークの入出力の第１の例を示す図である。　
　図１では、幾何情報および色情報を有して欠損部分が（図１の符号ａ）存在するN点の色付き点群N(x_i, y_i, z_i, r_i, g_i, b_i)と、色推定の対象であるN´点の色無し点群N´(x´_i´, y´_i´, z´_i´)を入力として、正しい色情報が付いたN´点の色付き点群N´(x´_i´, y´_i´, z´_i´, r´_i´, g´_i´, b´_i´)の推定結果を出力するニューラルネットワークの構成を示す。

　このニューラルネットワークは、MLP層、SA層、およびFP層の3つの層を組み合わせることで実現される。　
　MLP層は多層パーセプトロン（multilayer perceptron）のニューラルネットワークであり、入力要素数a、出力要素数bの全結合の線形層（以下、Linear（a, b）と表す）および、ReLUなどの各要素に対する活性化関数で構成される。

　図１に示された例では、色付き点群N(x_i, y_i, z_i, r_i, g_i, b_i)を入力するMLP1の出力にSA、SA、およびMLP2が直列に接続される。また、色無し点群N´(x´_i´, y´_i´, z´_i´)を入力するMLP1の出力にSA、SA、およびMLP2が直列に接続される。上記２つのMLP2の出力はFPに接続され、このFPの出力に４段のFPが直列に接続され、最後段のFPの出力にMLP3が接続される。MLP1からMLP2までの各層はエンコーダ（encoder）とも称される。　
　色付き点群N(x_i, y_i, z_i, r_i, g_i, b_i)を入力するMLP1の出力は、上記各MLP2の出力に接続されるFPの出力からみた４段目のFPにも接続され、色無し点群N´(x´_i´, y´_i´, z´_i´)を入力するMLP1の出力は、上記各MLP2の出力に接続されるFPからみた３段目のFPにも接続される。

　色付き点群N(x_i, y_i, z_i, r_i, g_i, b_i)を入力するMLP1の出力に接続されるSAの出力は、上記各MLP2の出力に接続されるFPからみた２段目のFPにも接続され、色無し点群N´(x´_i´, y´_i´, z´_i´)を入力するMLP1の出力に接続されるSAの出力は、上記各MLP2の出力に接続されるFPからみた１段目のFPにも接続される。

　図２Ａ、図２Ｂ、および図２Ｃは、MLP層の実装の一例を示す図である。　
　これら図２Ａ、図２Ｂ、および図２Ｃでは、図１で示されたMLP層の実装例としてMLP1、MLP2、およびMLP3が示される。　
　図２Ａに示されるMLP1では、N(x_i, y_i, z_i, r_i, g_i, b_i)またはN´(x´_i´, y´_i´, z´_i´)を表すテンソル（tensor）データを入力とし、本実施形態では、NおよびN´の点群を表す表記として、テンソルの各階層の要素数に着目して(N, 3 + 3)，(N´, 3 + 0)と表す。　
　このとき、テンソルの第２層の「3+3」および「3+0」の最初の「3」は、各点(x, y, z)の位置情報を表し、当該第２層の「3+3」および「3+0」の後段の「3」および「0」は、各点のカラー情報または特徴量ベクトル（vector）の長さを表す。

　図２Ａ中のMLP1は、最初に入力された各点をLinear(6, D)またはLinear(3, D)に代入する。代入先の引数の前半の数値は、入力が色情報（カラー）付きであるか否かに対応し、色情報付きでない場合は「3」を、色情報付きの場合は「6」を入力とする。　
　上記Linear(6, D)またはLinear(3, D)のDは、点群数などに応じて決められる整数のパラメータであり、図２Ａの例ではD=32となる。　
　上記Linear(6, D)またはLinear(3, D)の出力は、各点に対して要素数Dのベクトルが与えられるため、(N, D)または(N´, D)となる。

　次に、活性化関数であるReLUが上記出力(N, D)または(N´, D)に適用される。　
　さらにReLUの出力の(N, D)または(N´, D)は、Linear(D, D)に掛けて(N, D)または(N´, D)の出力が得られる。

　最後に、この出力(N, D)または(N´, D)に対して、入力のNまたはN´の位置情報を有する(N, 3)，(N´, 3)が結合されて、(N, 3 + D)，(N´, 3 + D)を出力とする。　
　ここで説明した構成は構成形態の１つであり、MLP1の後段のLinear層とReLU層を複数段にわたり適応したり、最後段のLinear層の出力の出力要素数がDであれば、途中の要素数を増減したりする変更は、ハイパーパラメータ（hyperparameters）の調整要素となる。

　図２Ｂに示されるMLP2は、図１に示されるエンコーダの最終段に該当し，２つのMLP1への入力に対して複数のSA層を適応して入力点の数を圧縮した後ので最後段に適応される。

　図１では、MLP1の出力に２つのSA層を適応した結果として、N点が16分の１まで圧縮された(N/16, 3 + D）、またはN´点が16分の１まで圧縮された(N´/16, 3 + D）がMLP2に入力される例が示される。　
　また、図１に示されるMLP2ではD=128である。

　図１では、各々のMLP1に接続されるSA層は２層であるが、SA層を３層または４層と繰り返し適応させて、点群データの点数が、64分の１または256分の１などに、より圧縮されても良いし、この場合は次元数がD＝256またはD=512などに大きくなる。　
　SA層の数は、扱われるNまたはN´の点数に影響されて決定されるパラメータである。

　図２Ｂのように、MLP2では、上記（N/16, 3 + D）のうち位置情報が省かれた（N/16, D）、または（N/16, 3 + D）のうち位置情報が省かれた(N´/16, D）がLinear(D, D´)に入力される。　
　D´は、Dの値に応じて定められるパラメータであり、D=128の場合はD´=256などに設定される。

　その後、MLP１と同様にReLU、Linear(D´, D´)、ReLU、Linear（D´, D）の入出力を繰り返して、最後段のLinear（D´, D）の出力に対して、N/16の位置情報を有する(N/16, 3)が結合された(N/16, 3 + D)、またはN´/16の位置情報を有する(N´/16, 3)が結合された(N´/16, 3 + D)が出力される。　
　ここで説明したMLP2の構成は、構成形態の１つであり、MLP2内の後段のLinear層とReLU層を複数段にわたり適応したり、最後段のLinear層の出力の出力要素数がDであれば、途中の要素数を増減したりすることは、ハイパーパラメータとしての調整要素となる。

　図２Ｃに示されるMLP3は、図１に示されるニューラルネットワークの最終段の出力に該当する。MLP2におけるDおよびD´は整数のパラメータであり、図２Ｃに示される例ではD=32、D´=64である。　
　MLP3も、MLP1およびMLP2と同様に、Linear層と活性化関数のReLUが繰り返し適応され、最後段のLinear層の出力は、色情報の出力のため「3」として出力される。

　色情報が0～1の間で表現される場合は、さらに最終段のLinear層の出力に活性化関数のSigmoidが適応された結果が出力として適用され得る。　
　最終段のLinear層およびSigmoidの出力は(N´, 3)であり、この「3」はr, g, bなどの色情報の各要素と対応する。

　最後に、MLP3の入力の（N´, 3 + D）のうち点群N´の位置情報にあたる（N´, 3）が最終段のLinear層またはSigmoid層の出力(N´, 3)に結合されることで、N´の位置情報と色情報で構成される最終的な出力（N´, 3 + 3）が得られる。

　MLP3においても、Linear層の最終的な出力の要素数が「3」となるように、Linear層の入力または出力要素数の値を変えたり、より多くのLinear層およびReLU層を追加したりすることはハイパーパラメータの調整要素となる。また、色情報が0～1の範囲で表現されない場合には、最終段のLinear層に適応されるSigmoidは省くことも可能である。

　次に、図１のSA層について述べる。図３は、SA層の実装例を示す図である。　
　SA層は、入力となる点群Nまたは点群N´の点数を圧縮しながら各点の特徴量を抽出するエンコーダの役割を有する。　
　図１に示された例では、１つのSA層で点群数を４分の１に圧縮しているが、圧縮の割合はハイパーパラメータの調整要素であり、２分の１にしても良いし、８分の１にしても良い。

　また、図１に示された例では、点群Nおよび点群N´に対して、それぞれ２つのSA層が適用されるが、この適用の回数もハイパーパラメータの調整要素の１つであり、３または４つに適用の回数が増やされしてもよい。

　また、図１に示された例では、SA層の前後で位置情報が除かれた各点の特徴量は32から64、または64から128に倍増させているが、各層の通過時の特徴量の数の決定もハイパーパラメータの調整要素の１つであり、数値を変えて調整することが可能である。

　図３に示された例では、入力となる点群の点数をNとし、位置情報を除く特徴量の要素数をDとし、出力となる点群の点数をNdsとし、位置情報を除く特徴量の要素数をDdsとして記載される。SA層では、最初に入力された点群数Nに対して、出力となるNdsへのDown Samplingが行なわれ、２階テンソル（Nds, 3）として出力される。

　このDown Samplingでは、N点から任意のNds点がランダム（random）にサンプリング（sampling）されても良いし、一般的な手法として広く知られているFarthest Point Samplingが用いられても良い。

　次にSA層では、上記サンプリングされたNdsの各点に対して、入力のN点の中から最も近い近傍点であるk点が選出される。そして、Ndsの各点に対して選出されたk点と、ｋ点の各々が有する特徴量Ｄの組み合わせが３階テンソル（Nds, k, D）として出力される。kはハイパーパラメータであり、図３においてはk=16である。

　次にSA層では、上記出力された（Nds, k, D）に対して、入力チャンネル（channel）数がD、出力チャンネル数がDds、カーネルサイズ（karnel size）が1×1、スライドサイズ（slide size）が１の２次元畳み込み（以下、各パラメータをあわせてConv2D(D, Dds, 1)と表す）を実施する。

　この２次元畳み込みに入力される、上記３階テンソル（Nds, k, D）は、縦横のサイズがNds×kである画素数を有する、チャンネル数Ｄのデータとみなすことができる。

　続けて、上記Conv2D(D, Dds, 1)の出力に対して、バッチノーマライゼーション（Batch Normalization）および活性化関数ReLUが順に適用されて、さらにConv2D（Dds, Dds, 1）、バッチノーマライゼーション、およびReLUが順に適用される。　
　これらのConv2D、バッチノーマライゼーション、および活性化関数の組み合わせの適用回数はハイパーパラメータの調整要素である。

　また、最終段のConv2Dの出力チャンネル数がDdsであれば、中段のConv2Dの入出力チャンネル数はハイパーパラメータであり調整要素となる。

　続けてSA層では、最終段のReLUの出力である(Nds, k, Dds)において、Ndsの各点に対応するk個の点の各々が有する要素数Ddsの特徴量ベクトルに対して、k個の点の中で最も大きな特徴量のみを抽出するMaxpool層が適用される。

　このMaxpool層により、k個の要素数Ddsの特徴量ベクトルが、要素ごとに最も大きい１つの要素数Ddsの特徴量ベクトルに統合される。このため、Maxpool層の入力となる３階テンソル（Nds, k, Dds）は２階テンソル（Nds, Dds）として出力される。

　最後に、SA層では、上記Down SamplingされたNds個の点および位置情報である（Nds, 3）と、上記Maxpool層の出力である(Nds, Dds)とが結合され、(Nds, 3 + Dds)として最終的に出力される。

　次に、図１に示されたFP層について述べる。図４は、FP層の実装の第１の例を示す図である。　
　FP層は２つの入力を有し、点群N´にMLP層またはSA層が適用された結果を２つとも入力とするN´, N´結合と、点群NにMLP層またはSA層が適用した結果を１つの入力とするN, N´結合の２パターン（pattern）で適用される。

　また、FP層の数は、SA層の数をOとすると、「O+1」である。すなわちFP層の数は、SA層の数に影響を受ける調整パラメータである。またN, N´結合とN´, N´結合は交互に適用され、入力となる点群は、MLP層およびSA層が繰り返し適用されて、点群数が削減された後段の出力から順番に入力として選択されて適用される。

　FP層の２つの入力について、入力Aの点群数をNdsとし、位置情報以外の各点の特徴ベクトルの要素数をDdsとし、入力Bの点群数をNupとし、位置情報以外の各点の特徴ベクトルの要素数をDupとする。

　N, N´結合において、入力Aには、点群N´にMLP層またはSA層が適用された結果が適用され、入力Bには、点群NにMLP層またはSA層が適用された結果が適応される。　
　また、N, N結合においては、最後段のSA層の次のMLP層の出力、または前段のFP層の出力が入力Aに適用され、入力Bには点群N´にMLP層またはSA層が適用された結果が適用される。

　図４で示されるFP層では、最初に入力Bの各点p_i(i=1, 2, …, Nds)に対して入力Aより最も近い上位のk点p_ij(j=1, 2, …, k)が選出されて、p_iからp_ijへのそれぞれの距離d_ijが計算され、３階テンソル（Nup, k, 1）が出力される（図４の符号ａ参照）。

　続けて、距離d_ijよりNupの各点p_iから入力Aの近傍点の上位k点に対する各々の重みw_ijが次式（１）で算出される（図４の符号ｂ参照）。

　この重みw_ijは、距離d_ijが短い点であるほど大きくなる変数であり、αは、d_ij=0であるときの不定を防ぐための微小な値をとるハイパーパラメータであり、図１に示された例においてはα=1.0*10^-8である。

　続けて、入力AよりNdsから選出された各点p_ijに対応する特徴量ベクトルv_ij（要素数Dds）に対して、各点p_ijに対応する重みw_ijの積w_ijv_ijが計算される（図４の符号ｃ参照）。　
　そして、Nupの各点p_iから選出されたk点の重み付き特徴量ベクトルw_ijv_ijの組である（Nup, k, Dds）が出力される。

　次に、各点p_iから選出されたk点の重み付き特徴量ベクトルの各要素の総和

（特徴ベクトルv_iの要素数Dds）が計算される（図４の符号ｄ参照）。　
　そして、各点p_iと上記抽出された特徴ベクトルv_iのペア（pair）が２階テンソル（Nup, Dds）として出力される。

　次に、入力BのNup点と入力時の位置情報を除く特徴量で構成されるテンソル（Nup, Dup）と、Maxpool層の出力（Nup, Dds）が結合された（Nup, Dds + Dup）が次の層に出力される。

　続けて、上記（Nup, Dds + Dup）に対して入力チャンネル「Dds + Dup」、出力チャンネルDup，カーネルサイズ「１」、およびスライドサイズ「１」の１次元の畳み込み（以下、各パラメータを含みConv1D(Dds + Dup, Dup, 1)と称する）が実施されて、各点に対して要素数Dupの特徴量の組み合わせとなる（Nup, Dup）が出力される。

　さらに上記Conv1D(Dds + Dup, Dup, 1)で出力された各要素に対して、バッチノーマライゼーションおよび活性化関数ReLUの適用が行なわれる。これらのConv1D、バッチノーマライゼーション、および活性化関数の組み合わせは例えば2度または3度などの複数回だけ適用されてもよく、適用の回数はハイパーパラメータの調整要素となる。この場合は、最前段のConv1Dの入力チャンネルが「Dds + Dup」となって、最後段のConv1Dの出力チャンネルがDupとなっていれば良い。

　最後に、最後段のReLU層の出力となる(Nup, Dup)に対して、入力Bの各点と位置情報のペアとなる（Nup, 3）が結合されて、FP層の最終的な出力として（Nup, 3 + Dup）が出力される。

　図５は、FP層の実装の第２の例を示す図である。FP層には、図４に示された例以外に、この図５に示された例も考えられる。　
　図５に示されたFP層において、入力Aおよび入力Bは図４に示された例と同じ入力であり、入力Aに対してはLinear(Dds, Dup)、バッチノーマライゼーション、およびReLU層が適用され、入力Bに対してはLinear(Dup, Dup)、バッチノーマライゼーション、およびReLU層が適用される。

　図５に示されるFP層では、両方の入力に対して最初にLinear層、バッチノーマライゼーション、およびReLU層でなる３層の組み合わせが１つずつ適用されるが、最後段のLinear層の出力要素数がDupであれば、上記３層の組み合わせが２度または３度と適用されても良く、適用回数はハイパーパラメータの調整要素となる。

　次に入力Aおよび入力Bに対して、図４に示されたFP層と同様に、入力Aの各点p_i(i=1, 2, …, Nds)に対して、入力Aの最も近い上位k点p_ij(j=1, 2, …, k)が選出されて、p_iからp_ijへの夫々の距離d_ijが計算され、３階テンソル（Nup, k, 1）が出力される（図５の符号ａ参照）。

　そして、距離d_ijよりNupの各点p_iから入力Aの近傍点のうち上位k点に対する各々の重みw_ijが上記式（１）で算出される（図５の符号ｂ参照）。

　続けて、入力AのNdsから選出された各点p_ijに対応する、Linear、Batch Normalization、およびReLUが適用された出力としての特徴量ベクトルv_ij（要素数Dup）に対して、各点p_ijに対応するw_ijの積w_ijv_ijが計算さる（図５の符号ｃ参照）。　
　そして、Nupの各点p_iから選出されたk点の重み付き特徴量ベクトルw_ijv_ijの組である（Nup, k, Dup）が出力される。

　次に、図４に示されたFP層と同様に、各点p_iから選出されたk点の重み付き特徴量ベクトルの各要素の総和

（特徴ベクトルv_iの要素数Dup）が計算される（図５の符号ｄ参照）。　
　そして、各点p_iと抽出された特徴ベクトルv_iのペアが２階テンソル（Nup, Dup）として出力される（図５の符号ｅ参照）。

　続いて、入力Bに対してLinear、Batch Normalization、およびReLUが適用された出力である、要素数（Nup, Dup）の2階テンソルT_in2と、前段の層で総和がとられた要素数（Nup, Dup）の２階テンソルとで、２階テンソルの第２の要素、すなわち要素数Dupの各要素の和が計算されて、新しい２階テンソル（Nup, Dup）が出力される。

　最後に、入力のNup点に対する位置情報で構成される２階テンソル（Nup, 3）と、前段の層で和が計算された２階テンソルの第２の要素が結合されて（Nup, 3 + Dup）が最終的に出力される。

　最後に、上記図１に示されるニューラルネットワークの構成要点について整理して説明する。　
　このニューラルネットワークにおけるMLP層、SA層、およびFP層については既知の構成が適用できる。

　一方で、このニューラルネットの最大の特徴として「色情報を有しない点群の幾何情報を入力とすることに加え、色情報の推定の対象である点群の近傍に存在する色付き点群の幾何情報および色情報も入力可能にする」、構成を実現するため、FP層のN, N´結合の処理は、既知の構成に依らない独自の適用となる。

　（ニューラルネットワークアルゴリズム（第２の例））
　次に、色情報を有しない点群の幾何情報を入力とすることに加え、色情報の推定対象である点群の近傍に存在する色付き点群の幾何情報および色情報も入力可能なニューラルネットワークアルゴリズムの第２の例について述べる。

　図６は、本発明の一実施形態で用いられるニューラルネットワークの入出力の第２の例を示す図である。　
　このニューラルネットワークアルゴリズムの第２の例では上記のニューラルネットワークの第１の例に改良を加えたことで、精度を向上させたものである。

　図６に示された第２の例では、図１に示された第１の例に対し、最終段のMLP層を除き、他のMLP層、各SA層、および各FP層の後段に新たにPTF層が挟まれていることが異なる。この第２の例ではMLP層、SA層およびFP層の実装例は、上記図２～５に示した例と同じである。また、第１の例と同様に、MLP層、SA層、およびFP層の内部処理には、ハイパーパラメータとして調整されるパラメータ(kなど)または、拡張の自由度（Linear層、およびConv層の適用数など）が存在する。

　また、SA層およびFP層の適用回数は、図６の例では、SA層の適用回数が「２段×２＝４回」、FP層の適用回数が「４＋１＝５回」であるが、SA層の適用回数を例えば「３段×２＝６回」とし、FP層の適用回数を「６＋１＝７回」とするなど、SA層が「Ｘ（変数）段×２」、FP層の適用回数が「（Ｘ×２）＋１」となる範囲で追加していくことも第１の例と同様に可能である。

　続いて、PTF層による処理の詳細について説明する。図７、図８Ａ、図８Ｂおよび図９は、PTF層の実装例を示す図である。　
　PTF層は、点数Ｎと、各点に対して「位置情報＋要素数D」の特徴量とを有する（N, 3 + D）の２階テンソルが入力となる。

　まず図７に示されるように、PTF層に入力された（N, 3 + D）のテンソルにおいて、N個の点群の各点pに対して、同じN個の点群の中から尤も近いk点が選出される（図７の符号a参照）。そしてN点の中の各点pに対して、近傍のk点の「位置情報＋特徴量」で構成される3階テンソル（N, k, 3 + D）が出力される。　
　kは、入力対象とするデータに応じて調整される正の整数であり、図７に示された例ではk=16である。本層の出力（N, k, 3 + D）を説明上kNNと定義する。

　次に、同じくPTF層への入力（N, 3 + D）のうち、位置情報が除かれた(N, D)に対して、Linear(D, H)が適用される。このHは、入力対象とするデータに応じて調整されるハイパーパラメータであり、図７に示された例ではH=512である。

　さらに前段の層のLinear(D, H)の出力となる2階テンソル（N, H）に対して、３つのLinear(H, H)が別々に、すなわち並列に適用される。　
　１つ目のLinear(H, H)の出力となる2階テンソル（N, H）の出力を説明上Queと定義する。　
　２つ目のLinear(H, H)の出力となる2階テンソル（N, H）に対しては、kNNのデータを参照して、次の処理が加えられる。まず、kNNである（N, k, 3 + D）はN点上の各点pに対して「N点の中から」pに最も近いk点と、この位置情報と要素数Ｄの特徴量で構成されたベクトルであり（図７の符号ｂ参照）、選ばれたk点はN点上の点である。

　そして、Linear(H, H)の出力（N, H）は、N点の各点pに対して要素数Hの特徴量で構成されるテンソルである。そのため、選ばれたN点の点であるk個の点に対して、それぞれの要素数Hの特徴量が存在するとみなすことができる。

　そこで、この例では、上記(N, k, 3 + D)の各k点が有する「3 + D」の要素をHに置き換える処理が行なわれる。ここでの処理の結果は、(N, k, H)の3階テンソルである。

　３つ目のLinear(H, H)の出力に対しても同様の処理が行なわれ、(N, k, H)の3階テンソルが得られる。ここで、図７に示された例では、２つ目のLinear(H, H)の出力から導き出された（N, k, H）をKeyと定義し、３つ目のLinear(H, H)から導き出された（N, k, H）をValueと定義する。

　次に、図８Ａに示されるPTF層では、kNNの（N, k, 3 + D）のデータと、入力Aの（N, 3 + D）のうち各点と位置情報のみから構成される（N, k, 3）と（N, 3）を入力として、N点上のある点p_i=(x_i, y_i, z_i)(ただしi=1, 2, … ,N)と、p_iの近傍点p_ij=(x_ij, y_ij, z_ij)(ただしj=1, 2, …, k)の位置情報の差分(x_i - x_ik, y_i - y_ik, z_i - z_ik)が計算される（図８Ａの符号ａ参照）。　
　上記の差分は、位置情報と同様に３つの要素より構成され、N点上の全ての点と近傍のk点の差分要素が計算されて（N, k, 3）として出力される。

　次に、前段の層の（N, k, 3）に対してLinear(3, H)、ReLU、およびLinear（H, H）が順次適用される。この例では、２つのLinear層が適用されるが、この適用される層の数は調整可能なハイパーパラメータであり、最前段のLinear層の入力要素数が３で、最後段のLinear層の出力要素数がHであれば、層の数を増やしたり、中間層の入出力要素数をHから変更したりしても良い。図８Ａに示された例では、最後段のLinear層の出力(N, k, H)を説明上POS_ENCと定義する。

　続いて、図８Ｂに示されたPTF層では、Que、Key、およびPOS_ENCの３つを入力として、「Que－Key＋POS_ENC」の計算が行なわれる。　
　このとき、Queは(N, H)の２階テンソルであり、Keyは（N, k, H）の３階テンソルであり、POS_ENCは（N, k, H）の３階テンソルであるが、QueにおけるNの各点における要素数Hの特徴ベクトルについてk個の同じ値がコピー（copy）されて(N, k, H)の３階テンソルに拡張されることで、テンソルの形状が合わせられる。

　続いて「Que－Key＋POS_ENC」の結果である（N, k, H）の出力に対して、Linear(H, H)、ReLU、およびLinear（H, H）が適用される。本処理では、２つのLinear層が適用されているが、この適用される層の数は調整可能なパラメータであり、最前段のLinear層の入力要素数がHで、最後段のLinear層の出力要素数がHであれば、層の数を増やしたり、中間層の入出力要素数をHから変更したりしても良い。

　次に、最後段のLinear層の出力である（N, k, H）の各要素に対して

の値による除算が行なわれる。　
　そして、除算の結果の出力におけるkの要素に対してSoftmax層が適用される。N点上の、ある点p_iと、p_iの近傍のk点p_ijの要素数Hの特徴量ベクトルv_ij=(v_ij1, v_ij2,…, v_ijh, …, v_ijH)が存在するときにv_ijhのSoftmax層が適用された後の値v´_ijhは、以下の式（２）により計算される。

　kの全ての要素に対してSoftmax層が適用された後の3階テンソル(N, k, H)を説明上ATTENTIONと定義する。

　続いて、図９に示されたPTF層では、ValueとPOS_ENCの和が計算される。これらのValueとPOS_ENCは（N, k, H）で要素数が揃ったテンソル同士となるので、本処理は全ての要素ペアの単純な加算となる。

　続いて、「Value + POS_ENC」の結果に対して、ATTENSIONとの積が計算される。「Value + POS_ENC」の結果とATTENTIONは（N, k, H）で要素数が揃ったテンソル同士となるので、本処理は全ての要素ペアの単純な積となる。

　ここで、「Value + POS_ENC」とATTENTIONの積算結果である(N, k, H)において、N点上の、ある点p_iと、p_iの近傍のk点p_ijの要素数Hの特徴量ベクトルをv´´_ijと定義したときに、p_iの総和の特徴量v´´_iを

と定義する。そして、PTF層では、全てのp_iに対するv´´_iのペアが計算され、(N, H)の２階テンソルとして出力される。

　続けて、前段の層の出力である(N, H)に対してLinear(H, D)が適用される。本処理は１つのLinear層が適用されるが、適用される層の数は調整可能なハイパーパラメータであり、最前段のLinear層の入力要素数がHで、最後段のLinear層の出力要素数がDであれば、１つ目のLinear層と２つ目のLinear層の間にReLUが挿入されるようにして、適用される層の数を増やしたり、中間層の入出力要素数をHから変更したりしても良い。

　続いて、最後段のLinear層の出力である（N, D）に対して、入力Aの（N, 3 + D）のうち位置情報が除かれた（N, D）の要素同士の和が計算される。

　最後に、前段の層の出力である（N, D）に対して、入力Aの（N, 3 + D）のうち位置情報のみが含まれる（N, 3）が結合されて、最終的な出力として（N, 3 + D）が出力される。

　（ニューラルネットワークアルゴリズム（第１および第２の例）の学習手法）
　次に、上記のニューラルネットワークアルゴリズムの学習、すなわちニューラルネットワークのパラメータの学習について説明する。　
　上記のニューラルネットワークアルゴリズムの第１および第２の例について学習させるためには、損失関数の設定、最適化アルゴリズムの設定、および学習用データの生成でなる３つの要素が必要である。　
　本実施形態では、学習の手法として、ニューラルネットワークアルゴリズムの第１および第２の例の損失関数および学習用データの生成の手法について説明する。また、損失関数においては、敵対的生成ネットワーク（GAN）を用いた設定の手法について説明する。

　上記の学習に係る最適化アルゴリズムは、ニューラルネットワークの一般的な最適化アルゴリズムが用いられれば良く、例えばSGD（Stochastic gradientdescent（確率的勾配降下法））またはAdam（Adaptive Moment. Estimation）が挙げられる。

　（ニューラルネットワークの損失関数）
　上記のニューラルネットワークアルゴリズムの第１および第２の例は、色付き点群データN(x_i, y_i, z_i, r_i, g_i, b_i)と、色無し点群データN´(x´_i´, y´_i´, z´_i´)を入力として、色有り点群データN´(x´_i´, y´_i´, z´_i´, r´_i´, g´_i´, b´_i´)を出力するアルゴリズムである。

　このとき後述する学習用データにおける正解ラベル（label）N´(x´_i´, y´_i´, z´_i´, R´_i´, G´_i´, B´_i´)を与えて、ニューラルネットワークアルゴリズムの第１および第２の例での損失関数は以下の式（３）として定義される。

　（敵対的生成ネットワークの識別ネットワーク）
　ニューラルネットワークアルゴリズムの第１および第２の例では、上記式（３）で示される損失関数と、後述する学習用データを用いることで学習させることは出来るが、本実施形態では、学習精度を向上させるため、さらに敵対的生成ネットワーク（GAN）を用いた学習方法について述べる。

　GANを実現させるためには、識別ネットワークと、識別ネットワークも含めた損失関数が必要となるが、まずは識別ネットワークについて述べる。

　図１０は、識別ネットワークの第１の例を示す図である。　
　識別ネットワークは、正解ラベルである色付き点群データN´(x´_i´, y´_i´, z´_i´, R´_i´, G´_i´, B´_i´)またはニューラルネットワークアルゴリズムの第１および第２の例での出力結果N´(x´_i´, y´_i´, z´_i´, r´_i´, g´_i´, b´_i´)を入力として、0から1までのスカラー（scalar）値で、入力データがN´(x´_i´, y´_i´, z´_i´, R´_i´, G´_i´, B´_i´)の場合は「１」を出力し、入力データがN´(x´_i´, y´_i´, z´_i´, r´_i´, g´_i´, b´_i´)の場合は「0」を出力するネットワークである。

　図１０に示されるように、識別ネットワークは、MLP層、SA層、およびMaxpool層の組み合わせで実現される。MLP層は図２に示されるMLP1と、図１０に示されるMLP4で構成され、SA層は図３に示した構成で実現される。図１０に示された例では、１つのSA層により点群の数が4分の１に圧縮されているが、圧縮の割合はハイパーパラメータの調整要素であり、２分の１にしても良いし、８分の１にしても良い。また、図１０に示された例では、２つのSA層が適用されるが、適用回の数はハイパーパラメータの調整要素であり、３度または４度などに適用回数が増やされても良い。

　また、図１０に示された例では、SA層の前後で位置情報が除かれた各点の特徴量は32から64、および64から128へ倍増させているが、各層の通過時の特徴量数の決定もハイパーパラメータの調整要素の１つであり、数値を変化させて調整することが可能である。

　Maxpool層は、SA層の最後段の出力に対して適用される層である。そして、圧縮された点群数N_sa、図１０に示された例では、ではN´/16)と位置情報以外の特徴量要素数D_sa (図１０に示された例では128)が入力されたとき、N_sa上の各点p_i(i=1, 2, 3, …, N_sa)に対応する特徴ベクトル

が存在するときに、全ての特徴ベクトルから１つのベクトル

を返すものであり、maxpoolでは、入力された要素のうち最大である１つの要素を返す関数maxで

として定義される。

　また、Maxpool層ではaverage global poolingを適用することもでき、この場合は入力された要素の平均を返す関数averageにより、

として定義される。　
　Maxpool層では、maxpoolまたはaverage global poolingが適用されたた結果の要素数D_saの1階テンソルが出力として返される。

　図１１は、MLP層の実装例を示す図である。図１１に示されるMLP4では、Maxpool層の１階テンソル出力に対して、Linear(D, D´)、ReLU、Linear(D´, D´´)、ReLU、およびLinear(D´´, 1)が順次適用される。　
　Dは、Maxpool層の出力である１階テンソルの要素数であり、図１０で示された例では、D=128となる。　
　また、(D´, D´´)は調整要素であるハイパーパラメータであり、図１０で示された例では、D´=64であり、D´´=32である。

　図１１に示された例では、３層のLinear層が適用されているが、Linear層の数は、調整要素となるハイパーパラメータの１つであり、最終段の層のLinear出力が「１」であれば２層に減らされても良いし、ReLUなどの活性化関数を挟みながら３層、または５層などに増やされても良い。

　最後に、Linear層の出力である、要素数が１である１階テンソルに対して、ニューラルネットワークにおいて一般的な活性化関数であるSigmoid関数が適用されて、0～1のスカラー値で構成される、要素数が１である１階テンソルが最終的な出力として得られる。

　図１２は、識別ネットワークの第２の例を示す図である。　
　図１２に示された例は、図１０に示された識別ネットワークの精度を向上させるため、さらにPTF層が挟んだ例である。図１２のに示されたネットワークの各層の処理および調整パラメータについては、図１０に示された例と同様であり、最終段を除くMLP層とSA層の後段にPTF層が挟まれることが、図１０に示された例と異なる。このPTF層は、ニューラルネットワークアルゴリズムの第２の例で示された、図７乃至９に示した構成と同様の構成が適用され得る。

　（敵対的生成ネットワークを含む損失関数）
　識別ネットワークに、正解ラベルの点群N´(x´_i´, y´_i´, z´_i´, R´_i´, G´_i´, B´_i´)が入力されたときの値がD(R)であって、識別ネットワークに、上記ニューラルネットワークアルゴリズムの第１および第２の例により推定された、色付き点群N´(x´_i´, y´_i´, z´_i´, r´_i´, g´_i´, b´_i´)が入力されたときの値がD(F)であるときに識別ネットワークの損失関数は下記の式（４）により定義される。

　Loss_D＝－log(D(R))－log(1－D(F))　…式（４）

　また、敵対ネットワークによる学習が適用されるときの、ニューラルネットワークアルゴリズムの第１および第２の例での損失関数は下記の式（５）で定義される。

　Loss_{main_gan}＝λLoss_main＋log(D(R))－log(1－D(F))　…式（５）

　上記の式（５）において、λは、上記ニューラルネットワークアルゴリズムにより生成された、着色点群、すなわち色付き点群と正解データとの差分の大きさと、識別ネットワークを上記ニューラルネットワークが騙すことが出来たか否かの、どちらを重視するかの調整要素となるハイパーパラメータであり、このλは0～1.0の間で設定される。例えばλ=0.5などが当てはまる。

　（学習用データの生成）
　本実施形態では、ニューラルネットワークは点群形状を補完する従来のニューラルネットワークでは補完されない色情報を推定することができる。　
　そして、点群形状を補完する従来のニューラルネットワークは、上記非特許文献１に開示されるように、欠損点群をAとして欠損部分をBとしたときに、Aを入力としてBが推定された結果であるB´を出力する１つ目のパターンのニューラルネットワーク、または上記非特許文献２に開示されるように、Aを入力としてA＋Bの全体が推定された結果であるA´＋B´を出力する２つ目のパターンのニューラルネットワークが存在する。

　また、本実施形態でのニューラルネットワークは、A+B´またはA´+B´を入力情報として、B´またはA´+B´の色情報を出力するニューラルネットワークであり、上記の両パターンの点群形状の補完に対応している。

　次に、ニューラルネットワークアルゴリズムの第１および第２の例に適用できる学習用データとして、上記の１つ目および２つ目のパターンのニューラルネットワークの各々に対応する学習用データの生成手法について説明する。

　図１３は、ニューラルネットワークの学習用データの生成のプロセスの第１の例を説明する図である。　
　まず、学習のための形状が完全な色付き3D点群をOriginal(点数O)と定義する。　
　次に、入力となる点群の点数を揃えるため、上記Originalでの点数が一定の点数N_preとなるようにDown Samplingが行なわれる。　
　このDown Samplingでは、O点から任意のN_pre点がランダムにサンプリングされても良いし、一般的な手法として広く知られているFarthest Point Samplingが用いられても良い。

　次に、上記の点数N_preが２つに分割された一方を点数がN_pre-N´の「Data1」と定義し、もう一方を点数がN´の「Data2」と定義する。分割の方法は、どのような形状の補完を想定するかによって異なり、例えばDown Samplingされた点群の１点がランダムで選出されて、この１点の近傍のN_pre点を「Data2」とする方法などがあげられる。

　そして最後に、「Data2」の色情報が除去された結果が「Data3」として定義される。

　本実施形態に係るニューラルネットワークを学習させる場合は、「Data1」および「Data3」がニューラルネットワークの入力とすることでて推定結果「Data2´」が得られる。　
　また「Data2」を正解ラベルとして、本実施形態のニューラルネットワークによる推定結果「Data2´」が損失関数Loss_mainに代入されて計算が行なわれる。　
　さらに、敵対的生成ネットワークを学習させる場合には、「Data1+Data2」を正解ラベルの点群N´(x´_i´, y´_i´, z´_i´, R´_i´, G´_i´, B´_i´)とし、「Data1+Data2´」を本実施形態に係るニューラルネットワークアルゴリズムの第１または第２の例により推定された、色付き点群N´(x´_i´, y´_i´, z´_i´, r´_i´, g´_i´, b´_i´)としてLoss_DまたはLoss_{main_gan}の計算が行なわれる。

　図１４は、ニューラルネットワークの学習用データの生成のプロセスの第２の例を示す図である。　
　この第２の例では、第１の例と同じく、まず、学習のための形状が完全な色付き3D点群をOriginal(点数O)と定義する。　
　次に、入力となる点群の点数を揃えるため、Originalから２パターンの点数N´の点群データ「Data1」および「Data2」が作成されるようにDown Samplingが行なわれる。　
　このDown SamplingではO点から任意のN´点がランダムにサンプリングされても良いし、上記Farthest Point Samplingが用いられても良い。ただし、上記生成された「Data1」および「Data2」には重複する点群が存在しても良いが、全く同じ点群とならないようにDown Samplingが行なわれる。

　また、全く同じ点群とならないようにするために、「Data2」の各点の位置情報に微小なランダムノイズ（noise）が載せられても良い。また、「Data1」はDown Samplingと部分分割が組み合せられて作成されても良い。　
　例えば、最初にOriginalから「N´＋A」点となるようにランダムサンプリングがなされ、続けて、特定の1点がランダムで選択されて、この選択された点の近傍のA点が部分分割されてN´点に変更するなどが挙げられる。続けて、「Data2」の色情報のみが取り除かれたものが「Data3」として生成される。

　本実施形態に係るニューラルネットワークを学習させるときは、「Data1」および「Data3」をニューラルネットワークの入力として推定結果「Data2´」が得られるようにする。また、「Data2」を正解ラベルとして、上記推定結果「Data2´」が損失関数Loss_mainに代入されて計算が行なわれる。

　さらに、敵対的生成ネットワークを学習させるときは、「Data2」を正解ラベルの点群N´(x´_i´, y´_i´, z´_i´, R´_i´, G´_i´, B´_i´)とし、「Data2´」をニューラルネットワークアルゴリズムの第１または第２の例により推定された色付き点群N´(x´_i´, y´_i´, z´_i´, r´_i´, g´_i´, b´_i´)としてLoss_DまたはLoss_{main_gan}が計算される。

　（実施形態）
　以下、各実施形態について説明する。　
　第１の実施形態では、図１に示された構成に基づくニューラルネットワークを、上記式（３）で示される損失関数と、図１４に示された手法で生成された学習用データを用いて学習させ、これを利用する構成について示す。

　また、第２の実施形態では、図６に示された構成に基づくニューラルネットワークを、図１２に示された識別ネットワークと、式（４）または（５）で示される損失関数と、図１３に示された手法で生成された学習用データを用いて学習させ、これを利用する構成について示す。

　（第１の実施形態）
　次に、上記第１の実施形態について説明する。この実施形態ではPTF層なし、GANなし、かつ上記非特許文献２に開示されるデータタイプ（type）に対応したDNNの例について説明する。

　図１５は、第１の実施形態に係る画像処理システムの全体構成の一例を示すブロック図である。　
　この第１の実施形態に係る画像処理システムは、CPU（Central Processing Unit）、GPU（Graphics Processing Unit）、およびメモリ（memory）などから構成される画像処理装置である計算端末100と、データを保存可能である記録装置200と、計算端末100との間でデータを送受信できる外部入出力装置300から構成される。

　また、計算端末100の内部は、処理プログラム（program）として学習操作部101、色推定DNN処理部102、および入力操作部104を有し、変数保持領域として色推定DNNパラメータDB（database（データベース））103をさらに有する。

　また、記録装置200は、例えば不揮発性メモリ（non-volatile memory）などの記憶装置を有し、この記憶装置は、学習用点群DB201を有する。

　図１６は、第１の実施形態で用いられる色推定DNNの一例を示す図である。
　第１の実施形態で用いられる色推定DNNは、図１で示される構成に基づく、図１６に示される構成をなす。図１６に示されるDNNは、2048点の色付き入力点群と、2048点の色無し入力点群を入力として、2048点の色有を出力点群を出力する。

　位置情報だけに着目すると、色付き入力点群と、色無し入力点群は等価ではない一方で、色無し入力点群と色有り出力点群は等価な点群データとなる。ここで、等価とは、両点群の間で位置情報が全く同じ点のペアが、全ての点に対して一対であるという意味である。

　図１６に示されるニューラルネットワークのMLP層、すなわちMLP1、MLP2、MLP3は図２に示された構成、SA層は図３に示された構成、FP層は図４に示された構成と同じものが用いられる。MLP1ではD=32であり、MLP2ではD=128でD´=256であり、MLP3ではD=32でD´=64である。　
　SA層では、kを除く変数Nと、Ndsと、Dと、Ddsは、図１６に示されるニューラルネットワークにおけるSA層の入力により異なり、N＝2048または512で、Nds=512または128で、D＝32または64で、Dds＝64または128で、k=16である。また、SA層のDown Samplingでは、上記Farthest Point Samplingが用いられる。　
　FP層も、変数Nds、Nup、Dds、およびDupは、入力Aと入力Bにおいて定まるため、図１６に示されるFP層の位置により異なり、変数k=16である。

　図１７は、の学習用点群DBのデータ保持例を示す図である。　
　記録装置200の学習用点群DB201では、点群データがファイル（file）として補完され、各点群データのファイルは１つの点が位置要素（X, Y, Z）と色要素（R, G, B）でなる６つの要素を有する、2560以上の点から構成される。また、各要素はMin-Max法により0～1の範囲に正規化済みであるとする。また、点群データのファイルの数は20の倍数であるとする。

　図１８は、色推定DNNパラメータDBのデータ保持例を示す図である。　
　色推定DNNパラメータDB103には、色推定DNN処理部102内で用いられる、図１６に示される色推定DNNの重みパラメータが保持され、各重みパラメータはSymbolとValueのペアで補完される。

　図１９は、第１の実施形態に係る計算端末の学習操作部による処理動作の一例を示すフローチャートである。　
　計算端末100の学習操作部101は、まずS101-1の処理として、記録装置200の学習用点群DB201より、P個の点群ファイルデータを順次取得する。PはDNNのミニバッチ（mini batch）学習法において一度に実施される学習の数であり、本実施形態ではP＝20とする。

　続いて、学習操作部101は、S101-2の処理では、S101-1で読み込んだ20個の点群データに対して、図１４に示される手法に基づき、色有り入力点群、色無し入力点群、および色有り正解点群をそれぞれ生成する。

　色有り入力点群は、図１４に示される「Data１」であり、本実施形態では、学習操作部101により、読み込んだ点群データからランダムサンプリングにより2560点が選定され、さらに2560点から1点がランダムに選定され、この1点に最も近い512点が取り除かれた2048点が用いられる。

　次に、色有正解点群は、図１４に示される「Data2」であり、学習操作部101により、上記読み込んだ点群データからランダムサンプリングにより2048点が選定されることで生成される。最後に、色無し入力点群は、学習操作部101により、色有り正解点群の色情報（R、G、B）が取り除かれることで生成される。

　続いて、S101-3の処理では、学習操作部101は、S101-2で生成した、20個の色有入力点群、および色無入力点群を色推定DNN処理部102へ送出する。

　次に、S101-4の処理では、学習操作部101は、色推定DNN処理部102の出力となる20個の色有出力点群を受け取る。

　続いて、S101-5の処理では、学習操作部101は、S101-2で生成した、20個の色有り正解点群と、S101-4で受け取った色有り出力点群とから損失関数を計算する。　
　色有り正解点群をY_iと定義し、色有り出力点群をX_i（i = 1, 2, 3, …, 20）と定義すると、学習操作部101は、20個のデータのペアの全てに対する損失関数の値を、上記式（３）を用いて、以下の式（６）として計算することができる。

　続いて、S101-6の処理では、学習操作部101は、S101-5で、上記式（６）により求めた損失関数の結果に基づいて、上記のADAMを用いて、色推定DNNパラメータDB103に保持される色推定DNNパラメータを更新する。ADAMで用いられるパラメータである学習率lrは0.01とする。

　最後に、S101-7では、学習操作部101は、色推定DNNパラメータS101-1で取得した20個のファイルで、学習用点群DB201にある全ファイルの取得が一巡したか否かを確認する。全ファイルが取得された場合は、学習操作部101は、学習回数をカウント（count）する。　
　S101-7における本カウントの回数が指定回数以上であれば、学習操作部101は、処理を終える。本実施形態における指定回数は100回とし、カウントの回数が100回以上の場合は、学習操作部101は、処理を終了し、カウントの回数が100回未満である、または全ファイルの取得が一巡していない場合には、学習操作部101は、S101-1に処理を戻す。

　図２０は、第１の実施形態に係る計算端末の色推定DNN処理部における処理動作の一例を示すフローチャートである。　
　S102-1では、計算端末100の色推定DNN処理部102は、学習操作部101または入力操作部104から、どちらも2048個の点から構成される色有り入力点群および色無し入力点群を受信する。

　続いて、S102-2では、計算端末100の色推定DNN処理部102は、色推定DNNパラメータDB103より、図１６で示された色推定DNNの全ての重みパラメータを参照する。

　続いて、S102-3では、色推定DNN処理部102は、S102-1で受信した色有り入力点群および色無し入力点群を、図１６で示された色推定DNNに代入する。　
　また、色推定DNNには、色推定DNN処理部102は、S102-2で参照した重みパラメータを代入する。そして、色推定DNN処理部102は、入力データに基づく処理を順次行ない、2048個の点から構成される色有出力点群を出力する。

　最後に、S102-4では、色推定DNN処理部102は、S102-3で計算された色有り出力点群を、S102-1で受信したデータが学習操作部101からのものであれば当該学習操作部101へ、S102-1で受信したデータが入力操作部104からのものであれば当該入力操作部104へ送信する。

　図２１は、第１の実施形態に係る計算端末の入力操作部の処理動作の一例を示すフローチャートである。　
　S104-1では、計算端末100の入力操作部104は、外部入出力装置300より、色有り入力点群および色無し入力点群を受信する。このとき、色有入力点群は2048個の点から構成される、位置情報および色情報を有する点群であり、色無し入力点群は、同じく2048個の点から構成される、位置情報のみを有する点群である。　
　外部入出力装置300は、計算端末100に対してデータの入出力が可能な別プログラムおよびファイルI/Oインタフェース（interface）などを備える。

　続いて、S104-2では、入力操作部104は、色推定DNN処理部102へ、S104-1で受信した色有り入力点群および色無し入力点群を送信する。

　次に、S104-3では、入力操作部104は、色推定DNN処理部102より、処理結果としての色有り出力点群を受信する。この色有り出力点群は、色推定DNN処理部102の仕組み上、色無し入力点群と同じ位置情報を有する2048個の点に、さらに色情報が追加されたものとなる。

　最後に、S104-4では、入力操作部104は、S104-3で受信した色有り出力点群を外部入出力装置300に送信して、処理を終了する。

　（第２の実施形態）
　次に、第２の実施形態について説明する。この実施形態ではPTF層あり、GANあり、非特許文献１に開示されるデータタイプに対応したDNNの例について説明する。

　図２２は、第２の実施形態に係る画像処理システムの全体構成の一例を示すブロック図である。　
　第２の実施形態に係る画像処理システムは、第１の実施形態と同様に計算端末100、記録装置200、および外部入出力装置300から構成される。　
　また、計算端末100の内部においても、第１の実施形態と同様に、処理プログラムとして学習操作部101、色推定DNN処理部102、および入力操作部104を有し、第１の実施形態と比較して、さらに識別DNN処理部105が追加される。

　また、変数保持領域として、第１の実施形態と同様に、計算端末100は、色推定DNNパラメータDB103を有し、計算端末100は、第１の実施形態と比較して識別DNNパラメータDB106をさらに有する。また、記録装置200は、第１の実施形態と同様に、学習用点群DB201を有する。

　図２３は、第２の実施形態で用いられる色推定DNNの一例を示す図である。
　第２の実施形態で用いられる色推定DNNは、図６に示される構成に基づく、図２３に示される構成をなす。図２３に示される色推定DNNは、2048点の色付き入力点群と、512点の色無し入力点群を入力として、512点の色有り出力点群を出力する。第１の実施形態とと同様に、図２３に示された例についても、色付き入力点群と、色無し入力点群は等価ではない一方で、色無し入力点群と色有り出力点群は等価な点群データとなる。

　図２３に示された例において、ニューラルネットワークのMLP層、すなわちMLP1、MLP2、およびMLP3は図２に示された構成、SA層は図３に示された構成、FP層は図５に示された構成と同じものが用いられる。MLP1ではD=32であり、MLP2ではD=128かつD´=256であり、MLP3ではD=32かつD´=64である。

　SA層では、kを除く変数Nと、Ndsと、Dと、Ddsは、図２３に示されるニューラルネットワークにおけるSA層の入力により異なり、N＝2048、512または128で、Nds=512、128または32で、D＝32または64で、Dds＝64または128で、k=16である。また、SA層のDown Samplingでは、上記Farthest Point Samplingが用いられる。

　同様にFP層も、変数Nds、Nup、Dds、およびDupは、入力Aと入力Bにより定まるため、図２３に示されるFP層の位置により異なり、変数k=16である。

　また、PTF層は図７乃至９で分割して記載されたものと同様なものが用いられる。PTF層のNおよびDは、入力により定まるため、図２３に示されたPTF層の位置によって異なる。また、第２の実施形態において、PTF層の変数はk=16、H=512とする。

　図２４は、第２の実施形態で用いられる識別DNNの一例を示す図である。　
　第２の実施形態で用いられる識別DNNは、図１２に示された構成に基づく、図２４に示された構成が用いられる。図２４に示された識別DNNは、2560点の色付きの点群を入力として、0以上1以下の推定結果を出力する。

　図２４に示された例において、MLP層のMLP1は図２に示された構成が、MLP4は図１１に示された構成と同じ構成が用いられる。MLP1ではD=32であり、MLP4ではD=128、D´=64、かつD´´=32である。

　SA層は、図３に示された構成と同じ構成が用いられる。このSA層では、kを除く変数N、Nds、D、およびDdsは、図１２に示されたSA層の入力により異なり、N＝2560または640で、Nds=640または160で、D＝32または64で、Dds＝64または128で、k=16である。また、SA層のDown Samplingでは、上記Farthest Point Samplingが用いられる。

　また、PTF層は、図７乃至９で分割して記載された構成と同様な構成が用いられ、PTF層のNおよびDは入力により定まるため、図２４に示されたPTF層の位置によって異なる。また、第２の実施形態において、PTF層の変数はk=16、かつH=512とする。また、Maxpool層では、上記average global poolingが用いられる。

　第２の実施形態における学習用点群DB201でのデータ保持の構成は、第１の実施形態における図１７で示された構成と同様である。　
　また、第２の実施形態における色推定DNNパラメータDB103でのデータ保持の構成は、第１の実施形態における図１８で示された構成と同様である。　
　このDNNパラメータDB103では、色推定DNN処理部102内で用いられる、図２３に示される色推定DNNの重みパラメータが保持され、各重みパラメータはSymbolとValueのペアで補完される。

　図２５は、識別DNNパラメータのデータ保持の一例を示す図である。識別DNNパラメータDB106では、識別DNN処理部105内で用いられる、図２４に示される識別DNNの重みパラメータが保持され、各重みパラメータはSymbolとValueのペアで補完される。

　図２６は、第２の実施形態に係る計算端末の学習操作部による処理動作の一例を示すフローチャートである。　
　計算端末100の学習操作部101は、まずS101-1の処理として、記録装置200の学習用点群DB201より、P個の点群ファイルデータを取得する。PはDNNのミニバッチ学習法において一度に実施される学習の数であり、本実施形態ではP＝20とする。

　続いて、学習操作部101は、S101-2の処理では、S101-1で読み込んだ20個の点群データに対して、図１３に示される手法に基づき、色有り入力点群、色無し入力点群、および色有り正解点群をそれぞれ生成する。

　色有り入力点群は図１３に示される「Data１」であり、本実施形態では、学習操作部101により、読み込んだ点群データからランダムサンプリングにより2560点が選定され(N_pre=2560)、さらに、この2560点から1点がランダムに選定され、この1点に最も近い512点が取り除かれた2048点が用いられる(N_pre-N´=2048)。

　次に、色有り正解点群は図１３に示される「Data2」であり、前処理で取り除かれた512点が用いられる（N´=512）。最後に、色無し入力点群は図１３に示される「Data3」であり、学習操作部101により、色有り正解点群の色情報（R, G, B）が取り除かれることで生成される。

　続いて、S101-3の処理では、学習操作部101は、S101-2で生成した、20個の色有り入力点群および色無し入力点群を色推定DNN処理部102へ送出する。

　次に、S101-4の処理では、学習操作部101は、色推定DNN処理部102の出力となる20個の色有り出力点群を受け取る。

　続いて、S101-5aの処理では、学習操作部101は、識別DNN処理部105へ、20個の色有り入力点群、色有り正解点群、および色有り出力データを送る。

　次に、S101-5bの処理では、識別DNN処理部105より、それぞれ0～1の値で表される、20個の正解点群に対する推定結果と、20個のフェイク（fake）点群に対する推定結果を受け取る。

　続いて、S101-5cの処理では、学習操作部101は、S101-2で生成した20個の色有り正解点群と、S101-4で受け取った20個の色有り出力点群と、S101-5bで受け取った、20個の正解点群に対する推定結果と、20個のフェイク点群に対する推定結果とから色推定DNNと識別DNNの損失関数を計算する。

　色推定DNNについて、色有り正解点群をY_iと定義し、色有り出力点群をX_iと定義し、正解点群に対する推定結果をTrue_i（i = 1, 2, 3, …, 20）と定義し、フェイク点群に対する推定結果をFake_i（i = 1, 2, 3, …, 20）と定義すると、学習操作部101は、20個のデータのペアの全てに対する損失関数の値を、上記の式（５）を用いて、下記の式（７）により計算することができる。この式（７）における調整パラメータ変数λは、本実施形態では0.5と定義される。

　また、識別DNNについて、正解点群に対する推定結果をTrue_i（i = 1, 2, 3, …, 20）と定義し、フェイク点群に対する推定結果をFake_i（i = 1, 2, 3, …, 20）と定義すると、学習操作部101は、20個のデータのペアの全てに対する損失関数の値を、上記式（４）を用いて、下記の式（８）におより計算することができる。

　続いて、S101-6aの処理では、学習操作部101は、S101-5cで、上記式（７）により求めた損失関数の結果に基づいて、上記のADAMを用いて、色推定DNNパラメータDB103に保持される色推定DNNパラメータを更新する。ADAMで用いられるパラメータである学習率lrは0.01とする。

　続いて、S101-6bの処理では、学習操作部101は、S101-5cで、上記式（８）で求めた損失関数の結果に基づいて、ADAMを用いて、識別DNNパラメータDB106に保持される識別DNNパラメータを更新する。ADAMで用いられるパラメータである学習率lrは0.01とする。

　最後に、S101-7では、学習操作部101は、S101-1で取得した20個のファイルで、学習用点群DB201にある全ファイルの取得が一巡したか否かを確認する。
　全ファイルが取得された場合は、学習操作部101は、学習回数をカウントする。S101-7における本カウントの回数が指定回数以上であれば、学習操作部101は、処理を終える。

　本実施形態における指定回数は100回とし、カウントの回数が100回以上の場合は、学習操作部101は、処理を終了し、カウントの回数が100回未満である、または全ファイルの取得が一巡していない場合には、学習操作部101は、S101-1に処理を戻す。

　第２の実施形態に係る色推定DNN処理部102における処理動作の手順は、第１の実施形態に係る図２０で示した例と同様である。　
　ただし差異が２つあり、差異の１つ目は、S102-1で入力される色無し入力点群と、S102-3において計算された色有り出力点群の点の数が、第１の実施形態では2048であるが、第２の実施形態では512となる部分である。差異の２つ目は、第１の実施形態での色推定DNN処理部102は図１６で示された色推定DNNを利用するが、第２の実施形態での色推定DNN処理部102は図２３で示された色推定DNNを利用することである。

　第２の実施形態に係る入力操作部104の処理動作の手順は、第１の実施形態に係る図２１で示された例と同様である。ただし、S104-1で入力される色無し入力点群と、S104-3で受信される色有り出力点群の点の個数が、第１の実施形態では2048個であるのに対し、第２の実施形態では512個であることが異なる。

　図２７は、第２の実施形態に係る識別DNN処理部における処理動作の手順の一例を示すフローチャートである。　
　S105-1では、識別DNN処理部105は、学習操作部101より、色有り入力点群、色有り正解点群、および色有り出力点群を受信する。　
　S105-2では、識別DNN処理部105は、識別DNNパラメータDB106より、図２４で示された識別DNNの全ての重みパラメータを参照する。

　S105-3では、識別DNN処理部105は、S105-1で受信した色有り入力点群（点数2048、各点の特徴量6）と、色有り正解点群（点数512、各点の特徴量6）とを結合して、正解点群（点数2560=2048+512、各点の特徴量6）を作成する。
　同様に、識別DNN処理部105は、色有り入力点群（点数2048、各点の特徴量6）と色有り出力点群（点数512、各点の特徴量6）とを結合してフェイク点群（点数2560=2048+512、各点の特徴量6）を作成する。

　S105-4では、識別DNN処理部105は、まず図２４で示された識別DNNへ、S105-2で参照した重みパラメータを代入する。そして、識別DNN処理部105は、S105-3で作成した正解点群を入力して、0～1の数値で示される正解点群の推定結果を計算する。　
　次に、識別DNN処理部105は、S105-3で作成したフェイク点群を入力して、0～1の数値で示されるフェイク点群の推定結果を計算する。

　最後に、S105-5では、識別DNN処理部105は、S105-4で計算された正解点群の推定結果と、フェイク点群の推定結果の２つを学習操作部101へ送信する。送信を終えたら、識別DNN処理部105は、処理を終了する。

　図２８は、本発明の一実施形態に係る画像処理システムの計算端末のハードウエア構成の一例を示すブロック図である。　
　図２８に示された例では、上記の実施形態に係る画像処理システムの計算端末１００は、例えばサーバコンピュータ（server computer）またはパーソナルコンピュータ（personal computer）により構成され、ＣＰＵ等のハードウエアプロセッサ（hardware processor）１１１Ａを有する。そして、このハードウエアプロセッサ１１１Ａに対し、プログラムメモリ（program memory）１１１Ｂ、データメモリ（data memory）１１２、入出力インタフェース１１３及び通信インタフェース１１４が、バス（bus）１１５を介して接続される。上記画像処理システムの記録装置２００および外部入出力装置３００も同様である。

　通信インタフェース１１４は、例えば１つ以上の無線の通信インタフェースユニットを含んでおり、通信ネットワーク（network）ＮＷとの間で情報の送受信を可能にする。無線インタフェースとしては、例えば無線ＬＡＮ（Local Area Network）などの小電力無線データ通信規格が採用されたインタフェースが使用される。

　入出力インタフェース１１３には、計算端末１００に付設される、利用者などにより用いられる入力デバイス（device）５００および出力デバイス６００が接続される。　
　入出力インタフェース１１３は、キーボード（keyboard）、タッチパネル（touch panel）、タッチパッド（touchpad）、マウス（mouse）等の入力デバイス５００を通じて利用者などにより入力された操作データを取り込むとともに、出力データを液晶または有機ＥＬ（Electro Luminescence）等が用いられた表示デバイスを含む出力デバイス６００へ出力して表示させる処理を行なう。なお、入力デバイス５００および出力デバイス６００には、計算端末１００に内蔵されたデバイスが使用されてもよく、また、ネットワークＮＷを介して計算端末１００と通信可能である他の情報端末の入力デバイスおよび出力デバイスが使用されてもよい。

　プログラムメモリ１１１Ｂは、非一時的な有形の記憶媒体として、例えば、ＨＤＤ（Hard Disk Drive）またはＳＳＤ（Solid State Drive）等の随時書込みおよび読出しが可能な不揮発性メモリと、ＲＯＭ等の不揮発性メモリとが組み合わせて使用されたもので、一実施形態に係る各種制御処理等を実行する為に必要なプログラムが格納されている。

　データメモリ１１２は、有形の記憶媒体として、例えば、上記の不揮発性メモリと、ＲＡＭ等の揮発性メモリ（volatile memory）とが組み合わせて使用されたもので、各種処理が行なわれる過程で取得および作成された各種データが記憶される為に用いられる。

　本発明の一実施形態に係る計算端末１００は、ソフトウエア（software）による処理機能部として、図１に示される各部を有するデータ処理装置として構成され得る。

　計算端末１００の各部によるワークメモリ（working memory）などとして用いられる各情報記憶部および各ＤＢは、図２８に示されたデータメモリ１１２が用いられることで構成され得る。ただし、これらの構成される記憶領域は計算端末１００内に必須の構成ではなく、例えば、ＵＳＢ（Universal Serial Bus）メモリなどの外付け記憶媒体、又はクラウド（cloud）に配置されたデータベースサーバ（database server）等の記憶装置に設けられた領域であってもよい。

　上記の計算端末１００の各部における処理機能部は、いずれも、プログラムメモリ１１１Ｂに格納されたプログラムを上記ハードウエアプロセッサ１１１Ａにより読み出させて実行させることにより実現され得る。なお、これらの処理機能部の一部または全部は、特定用途向け集積回路（ＡＳＩＣ（Application Specific Integrated Circuit））またはＦＰＧＡ（Field-Programmable Gate Array）などの集積回路を含む、他の多様な形式によって実現されてもよい。

　また、各実施形態に記載された手法は、計算機（コンピュータ）に実行させることができるプログラム（ソフトウエア手段）として、例えば磁気ディスク（フロッピー（登録商標）ディスク（Floppy disk）、ハードディスク（hard disk）等）、光ディスク（optical disc）（ＣＤ－ＲＯＭ、ＤＶＤ、ＭＯ等）、半導体メモリ（ＲＯＭ、ＲＡＭ、フラッシュメモリ（Flash memory）等）等の記録媒体に格納し、また通信媒体により伝送して頒布され得る。なお、媒体側に格納されるプログラムには、計算機に実行させるソフトウエア手段（実行プログラムのみならずテーブル（table）、データ構造も含む）を計算機内に構成させる設定プログラムをも含む。本装置を実現する計算機は、記録媒体に記録されたプログラムを読み込み、また場合により設定プログラムによりソフトウエア手段を構築し、このソフトウエア手段によって動作が制御されることにより上述した処理を実行する。なお、本明細書でいう記録媒体は、頒布用に限らず、計算機内部あるいはネットワークを介して接続される機器に設けられた磁気ディスク、半導体メモリ等の記憶媒体を含むものである。

　なお、本発明は、上記実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。また、各実施形態は適宜組み合わせて実施してもよく、その場合組み合わせた効果が得られる。更に、上記実施形態には種々の発明が含まれており、開示される複数の構成要件から選択された組み合わせにより種々の発明が抽出され得る。例えば、実施形態に示される全構成要件からいくつかの構成要件が削除されても、課題が解決でき、効果が得られる場合には、この構成要件が削除された構成が発明として抽出され得る。

　　１００…計算端末
　　１０１…学習操作部
　　１０２…色推定DNN処理部
　　１０３…色推定DNNパラメータDB
　　１０４…入力操作部
　　１０５…識別DNN処理部
　　１０６…識別DNNパラメータDB
　　２００…記録装置
　　２０１…学習用点群DB
　　３００…外部入出力装置

Claims

　色情報を有しない第１の点群データおよび前記第１の点群データの近傍に位置して色情報を有する第２の点群データを取得する取得部と、
　前記取得部により取得された前記第１および第２の点群データをニューラルネットワークに入力することで、前記第１の点群データにおける色情報が推定された点群データを出力する推定処理部と、
　を備える画像処理装置。
　前記ニューラルネットワークは、
　　前記第１の点群データを表すテンソルに要素数のベクトルを追加し、前記追加された結果における点群データの数を圧縮し、前記第２の点群データを表すテンソルに要素数のベクトルを追加し、当該追加された結果における点群データの数を圧縮し、前記第１の点群データを表すテンソルに要素数のベクトルを追加した結果における点群データの数を圧縮した結果に、前記第２の点群データを表すテンソルに要素数のベクトルを追加した結果における点群データの数を圧縮した結果を同じ数の点群データ同士で結合し、第１の数の前記第１の点群データの表すテンソルに要素数のベクトルを追加した結果における点群データの数を圧縮した結果に、前記第１の数より大きい第２の数の前記第１の点群データの表すテンソルに要素数のベクトルを追加した結果を結合した結果に基づいて、前記第１の点群データについて色情報が推定された点群データを出力する、
　請求項１に記載の画像処理装置。
　色情報を有しない第１の点群データおよび前記第１の点群データの近傍に位置して色情報を有する第２の点群データを取得する取得部と、
　前記取得部により取得された前記第１および第２の点群データをニューラルネットワークに入力することで、前記第１の点群データについて色情報が推定された点群データを出力する推定処理部と、
を備え、
　前記ニューラルネットワークは、
　　前記第１の点群データを表すテンソルに要素数のベクトルを追加し、前記追加された結果における点群データの数を圧縮し、前記第２の点群データを表すテンソルに要素数のベクトルを追加し、当該追加された結果における点群データの数を圧縮し、前記第１の点群データを表すテンソルに要素数のベクトルを追加した結果における点群データの数を圧縮した結果に、前記第２の点群データを表すテンソルに要素数のベクトルを追加した結果における点群データの数を圧縮した結果を同じ数の点群データ同士で結合し、第１の数の前記第１の点群データの表すテンソルに要素数のベクトルを追加した結果における点群データの数を圧縮した結果に、前記第１の数より大きい第２の数の前記第１の点群データの表すテンソルに要素数のベクトルを追加した結果を結合した結果に基づいて、前記第１の点群データについて色情報が推定された点群データを出力し、
　色情報を有する点群データを取得し、前記点群データに基づいて、色情報を有する点群データである正解データ、色情報を有しない点群データ、および色情報を有する点群データにおける一部分が除かれた点群データを生成し、前記生成した、前記色情報を有しない点群データおよび、前記色情報を有する点群データにおける一部分が除かれた点群データを前記ニューラルネットワークに入力することで出力された、色情報が推定された前記一部分のデータを取得し、この取得されたデータおよび前記正解データに基づいて前記ニューラルネットワークに係る損失関数を計算し、前記計算した損失関数に基づいて、前記ニューラルネットワークのパラメータを更新するパラメータ更新部を備える、
　画像処理装置。
　前記パラメータ更新部は、
　　前記生成された色情報を有しない点群データ、前記正解データ、および前記一部分が除かれた点群データを、入力されたデータが前記正解データであるときに第１のスカラー値を出力し、前記入力されたデータが、前記色情報が推定された前記一部分のデータであるときに第２のスカラー値を出力する第２のニューラルネットワークに入力することで出力された値に基づいて、前記第２のニューラルネットワークに係る損失関数を計算し、
　　前記計算した損失関数に基づいて、前記第２のニューラルネットワークのパラメータを更新する、
　請求項３に記載の画像処理装置。
　画像処理装置により行なわれる方法であって、
　前記画像処理装置の取得部により、色情報を有しない第１の点群データおよび前記第１の点群データの近傍に位置して色情報を有する第２の点群データを取得し、
　前記画像処理装置の推定処理部により、前記取得部により取得された前記第１および第２の点群データをニューラルネットワークに入力することで、前記第１の点群データについて色情報が推定された点群データを出力する、
　画像処理方法。
　画像処理装置により行なわれる方法であって、
　前記画像処理装置の取得部により、色情報を有しない第１の点群データおよび前記第１の点群データの近傍に位置して色情報を有する第２の点群データを取得し、
　前記画像処理装置の推定処理部により、前記取得部により取得された前記第１および第２の点群データをニューラルネットワークに入力することで、前記第１の点群データについて色情報が推定された点群データを出力し、
　前記ニューラルネットワークは、
　　前記第１の点群データを表すテンソルに要素数のベクトルを追加し、前記追加された結果における点群データの数を圧縮し、前記第２の点群データを表すテンソルに要素数のベクトルを追加し、当該追加された結果における点群データの数を圧縮し、前記第１の点群データを表すテンソルに要素数のベクトルを追加した結果における点群データの数を圧縮した結果に、前記第２の点群データを表すテンソルに要素数のベクトルを追加した結果における点群データの数を圧縮した結果を同じ数の点群データ同士で結合し、第１の数の前記第１の点群データの表すテンソルに要素数のベクトルを追加した結果における点群データの数を圧縮した結果に、前記第１の数より大きい第２の数の前記第１の点群データの表すテンソルに要素数のベクトルを追加した結果を結合した結果に基づいて、前記第１の点群データについて色情報が推定された点群データを出力し、
　前記画像処理装置のパラメータ更新部により、色情報を有する点群データを取得し、前記点群データに基づいて、色情報を有する点群データである正解データ、色情報を有しない点群データ、および色情報を有する点群データにおける一部分が除かれた点群データを生成し、前記生成した、前記色情報を有しない点群データおよび、前記色情報を有する点群データにおける一部分が除かれた点群データを前記ニューラルネットワークに入力することで出力された、色情報が推定された前記一部分のデータを取得し、この取得されたデータおよび前記正解データに基づいて前記ニューラルネットワークに係る損失関数を計算し、前記計算した損失関数に基づいて、前記ニューラルネットワークのパラメータを更新する、
　画像処理方法。
　請求項１乃至４のいずれか１項に記載の画像処理装置の前記各部としてプロセッサを機能させる画像処理プログラム。