WO2020115866A1 - 深度処理システム、深度処理プログラムおよび深度処理方法 - Google Patents

深度処理システム、深度処理プログラムおよび深度処理方法 Download PDF

Info

Publication number
WO2020115866A1
WO2020115866A1 PCT/JP2018/044939 JP2018044939W WO2020115866A1 WO 2020115866 A1 WO2020115866 A1 WO 2020115866A1 JP 2018044939 W JP2018044939 W JP 2018044939W WO 2020115866 A1 WO2020115866 A1 WO 2020115866A1
Authority
WO
WIPO (PCT)
Prior art keywords
depth
image
resolution
depth image
neural network
Prior art date
Application number
PCT/JP2018/044939
Other languages
English (en)
French (fr)
Inventor
薫 那須野
僚輔 那須野
Original Assignee
株式会社DeepX
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社DeepX filed Critical 株式会社DeepX
Priority to PCT/JP2018/044939 priority Critical patent/WO2020115866A1/ja
Publication of WO2020115866A1 publication Critical patent/WO2020115866A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting

Definitions

  • the present invention relates to a depth processing system, a depth processing program and a depth processing method for processing a depth image.
  • Patent Document 1 discloses a depth map improving method for increasing the resolution of a depth image by using a depth-dependent pixel averaging function. Specifically, first, for a specific scene to be captured, a group of depth images are acquired from different imaging directions using a plurality of depth cameras. Next, the depth dependent pixel averaging function for each depth camera is obtained. The depth dependent pixel averaging function is then used to integrate the depth images to generate a high resolution depth image for this scene.
  • Patent Document 2 discloses a range image resolution conversion device that converts the resolution of a range image at high speed and with high accuracy. Specifically, first, a distance image to be processed and a color image obtained by photographing a subject existing at the same position as the distance image are input. Next, noise removal is performed on the input range image to generate a noise-removed range image. Next, based on the distance image, the noise-removed distance image, and the color image, the SSM portion high resolution distance image is generated by performing up-sampling processing using autocorrelation on the distance image. Then, the PLU section high resolution range image is generated by performing up-sampling processing by linear prediction based on the noise-removed range image and the SSM section high resolution range image.
  • Patent Document 3 discloses a system that uses deep learning to predict a new view from existing luminance images in the real world.
  • This system uses a deep architecture that is trained with a large number of pose images corresponding to individual scenes and that the synthesis of new views is performed directly from the pixels.
  • a system using such a deep network is suitable for a graphics application such as generating a pixel of a view that has never been seen based on a pixel of an adjacent view.
  • the present invention has been made in view of such circumstances, and an object thereof is to accurately increase the resolution of a depth image acquired by a depth camera.
  • the first invention provides a depth processing system that has a neural network model, a first imaging unit, and a depth processing unit, and processes a depth image.
  • the neural network model outputs an image having a higher depth resolution than the depth image based on the input of the brightness image of the object and the depth image having a predetermined depth resolution.
  • the first imaging unit images an object and acquires a first luminance image and a first depth image.
  • the depth processing unit increases the resolution of the first depth image based on the output of the neural network model based on the input of the first brightness image and the first depth image acquired by the first imaging unit.
  • the depth processing unit is a process of increasing the resolution of an estimated depth image output from a neural network model and showing a depth value having a higher depth resolution than the first depth image. It may be output as a result. Further, instead of this, the depth processing unit is obtained by adding the first depth image and the estimated depth difference image output from the neural network model and showing the depth difference with respect to the first depth image. The added depth image thus obtained may be output as the processing result with the resolution increased.
  • the neural network model has internal parameters of its own function adjusted so that an output based on the characteristics of the input luminance image and depth image can be obtained.
  • supervised learning using teacher data including a luminance image, a low resolution depth image having a depth resolution equivalent to the depth image, and a high resolution depth image having a higher depth resolution than the low resolution depth image.
  • a learning processing unit for adjusting the internal parameter of the neural network model may be further provided.
  • the luminance image and the low-resolution depth image are acquired by the second imaging unit having a depth resolution equivalent to that of the first imaging unit, and the high-resolution depth image is different from the second imaging unit.
  • the coordinate conversion is performed in order to match the viewpoint with the second image capturing unit, which is arranged at a position and is acquired by the third image capturing unit having a higher depth resolution than the second image capturing unit. ..
  • the brightness image and the low-resolution depth image may be acquired by a plurality of second imaging units arranged at different positions.
  • the learning processing unit includes an error calculation unit, an error evaluation unit, and a gradient calculation unit.
  • the error calculation unit calculates an estimated error image indicating an error between the estimated depth image obtained by increasing the resolution of the low resolution depth image and the high resolution depth image based on the output of the neural network model.
  • the error evaluation unit calculates an error evaluation value of the estimated error image.
  • the gradient calculator calculates the gradient of the internal parameter of the neural network model based on the error evaluation value.
  • the learning processing unit is a filter processing unit that performs a filtering process on the estimation error image based on a certainty factor image acquired by the third imaging unit and indicating the certainty factor of the depth value in the high-resolution depth image. May have. In this case, it is preferable that the error evaluation unit calculates the error evaluation value based on the estimated error image filtered by the filter processing unit.
  • the second invention provides a depth processing program for processing a depth image by causing a computer to execute processing having the following steps.
  • the first step the first brightness image and the first depth image acquired by imaging the object with the first imaging unit are input to the neural network model.
  • the neural network model outputs an image having a higher depth resolution than this depth image with respect to the input of the luminance image of the object and the depth image having a predetermined depth resolution.
  • the resolution of the first depth image is increased based on the output of the neural network model.
  • the third invention provides a depth processing method for processing a depth image, including the following steps.
  • the first step the first brightness image and the first depth image acquired by imaging the object with the first imaging unit are input to the neural network model.
  • the neural network model outputs an image having a higher depth resolution than this depth image with respect to the input of the luminance image of the object and the depth image having a predetermined depth resolution.
  • the resolution of the first depth image is increased based on the output of the neural network model.
  • the estimated depth image output from the neural network model and showing a depth value having a higher depth resolution than the first depth image The depth image may be output as the processing result of high resolution.
  • the estimated depth difference image output from the neural network model and showing the depth difference with respect to the first depth image is added to the first depth image.
  • the obtained added depth image may be output as a processing result obtained by increasing the resolution of the first depth image.
  • the neural network model has internal parameters of its own function adjusted so that an output based on the characteristics of the input luminance image and depth image is obtained. ..
  • teacher data having a luminance image, a low resolution depth image having a depth resolution equivalent to the depth image, and a high resolution depth image having a higher depth resolution than the low resolution depth image is used.
  • a third step of adjusting internal parameters of the neural network model by supervised learning may be further provided.
  • the luminance image and the low-resolution depth image are acquired by a second imaging unit having a depth resolution equivalent to that of the first imaging unit, and the high-resolution depth image is different from the second imaging unit.
  • the coordinate conversion is performed in order to match the viewpoint with the second image capturing unit, which is arranged at a position and is acquired by the third image capturing unit having a higher depth resolution than the second image capturing unit. ..
  • the brightness image and the low-resolution depth image may be acquired by a plurality of second imaging units arranged at different positions.
  • an estimated error image showing an error between the estimated depth image obtained by increasing the resolution of the low resolution depth image based on the output of the neural network model and the estimated error image. It is preferable to have a step of calculating, an error evaluation value of the estimated error image, and a step of calculating the gradient of the internal parameter of the neural network model based on the error evaluation value.
  • the estimation error is obtained based on the certainty factor image acquired by the third imaging unit and indicating the certainty factor of the depth value in the high resolution depth image, prior to the calculation of the error evaluation value.
  • the method may further include a step of performing a filtering process on the image.
  • the resolution of the depth image to be processed is increased based on the output of the neural network model.
  • the depth scale acquired by the first imaging unit can be accurately measured by combining a luminance image capable of estimating the unevenness from the shadow of the object and a depth image having depth scale information as an input of the neural network model. High resolution can be achieved.
  • Block diagram of depth processing system Conceptual diagram for increasing the resolution of depth images The figure which shows an example of the high-resolution depth image.
  • Conceptual diagram of supervised learning for neural network model Block diagram of learning processing unit Explanatory diagram of placement of depth camera when collecting teacher data Figure showing a depth image of a partial cross section of the served pasta Block diagram of a learning processing unit according to a modification
  • FIG. 1 is a block configuration diagram of the depth processing system according to the present embodiment.
  • the depth processing system 1 is mounted on, for example, an industrial robot that performs a predetermined work on a known object (work), or is used as a part of the object recognition system, and is acquired by an imaging unit that images an object. Increase the resolution of the depth scale of depth images.
  • the depth processing system 1 includes a depth camera 2 as an imaging unit that images an object, a depth processing unit 3, a neural network model 4 (hereinafter, the neural network is abbreviated as “NN” as appropriate), and a learning processing unit 5. It is mainly composed of and.
  • Depth camera 2 images an imaging space including an object and acquires a brightness image B and a depth image Dlow at the same viewpoint.
  • a relatively inexpensive and easily available one for example, an Intel depth camera (product name: “RealSense”) can be used.
  • Most inexpensive depth cameras 2 have low depth resolution, and the resolution is insufficient to be used as the “eye” of an industrial robot.
  • the present embodiment uses such a depth camera 2 to ensure the required depth resolution by software technology.
  • a grayscale image with 256 gradations is used as an example of the brightness image B, but an RGB image may be used instead of the grayscale image.
  • the luminance image B acquired by the depth camera 2 may be subjected to preprocessing such as distortion correction.
  • the “image” refers to a two-dimensional set in which characteristic values for each predetermined unit area are arranged
  • the brightness image B is a set of brightness values
  • the depth image Dlow is a set of depth values, respectively.
  • the depth image Dhigh is defined as a depth value
  • the depth estimation image De is a depth value
  • the estimated depth image De′ is a depth difference
  • the estimation error images E and E′ are defined as a set of error values.
  • the unit area of the characteristic value is typically a pixel, but it may be a pixel block composed of a plurality of pixels. Further, the size of the unit area may be different between images having different characteristic values such that the unit area of the brightness image B is a pixel and the unit area of the depth image Dlow is a pixel block.
  • Depth processing unit 3 outputs depth image Dhigh, which is a higher resolution of depth image Dlow, through input/output of NN model 4.
  • FIG. 2 is a conceptual diagram of increasing the resolution of the depth image Dlow.
  • the luminance image B acquired by the depth camera 2 and the depth image Dlow having low depth resolution are input to the NN model 4.
  • the output depth image Dhigh has the same size as the depth image Dlow and has the same viewpoint as the depth image Dlow, and has a higher depth scale resolution than the depth image Dlow.
  • the gradation of the input depth image Dlow is set to 200
  • the resolution is increased to 2000 gradations, which is 10 times the input, as the output depth image Dhigh. This corresponds to a depth resolution of about 1 cm increasing to about 1 mm.
  • FIG. 2 conceptually shows that the entire image of the depth image Dhigh is output based on the input of the entire image of the brightness image B and the depth image Dlow, but in reality, the input image B, Dlow is divided into a plurality of blocks (image areas), and then each block is processed in parallel by a graphics processing unit (GPU) composed of a large number of cores. This point is the same in the supervised learning described later.
  • GPU graphics processing unit
  • FIG. 3 is a diagram showing an example of a depth image Dhigh obtained by increasing the resolution of the depth image Dlow, showing a depth image of pasta placed on a plate.
  • the magnitude of the depth value is represented as a gray scale (shade) in order to facilitate visual understanding.
  • the depth image Dlow on the left side of the figure it is difficult to determine the unevenness caused by each noodle.
  • the depth image Dhigh on the right side of the figure has a fine depth scale enough to discriminate such unevenness.
  • NN model 4 is built mainly of neural networks and has a predetermined problem solving capability.
  • the “neural network” is a combination of mathematical models of neurons, and not only the most primitive structure of a neural network but also a convolutional neural network (CNN) or a recurrent neural network (RNN). As such, it broadly encompasses its derivative forms and developed forms.
  • CNN convolutional neural network
  • RNN recurrent neural network
  • the architecture of the NN model 4 CNN that exhibits excellent performance in image processing is adopted.
  • the CNN is mainly composed of a convolutional layer and a pooling layer, and convolution is performed when encoding information and deconvolution processing is performed when decoding information.
  • the convolutional layer extracts local features of the image, and the pooling layer performs processing for collecting the local features. Through such processing, in CNN, the image is abstracted while maintaining the characteristics of the input image, and the amount of information can be significantly compressed.
  • the estimated depth image De that is the output of the NN model 4 is defined as a set of depth values
  • the estimated depth image De output from the NN model 4 is directly output from the depth processing unit 3 as the depth image Dhigh.
  • the learning processing unit 5 adjusts the internal parameter ⁇ of the NN model 4 by supervised learning using teacher data.
  • FIG. 4 is a conceptual diagram of supervised learning for the NN model 4.
  • the teacher data includes three images in which the unit areas have positional correspondences from the same viewpoint, that is, a luminance image B (input data), a depth image Dlow having low depth resolution (input data), and a depth image Dlow. It is a depth image Dhigh (correct answer data) having a higher depth resolution.
  • the luminance image B and the depth image Dlow are acquired by a general-purpose and inexpensive depth camera having low depth resolution. Further, preprocessing such as distortion correction may be performed on the brightness image B.
  • the depth image Dhigh is acquired by an expensive depth camera that is used for industrial purposes and has a higher depth resolution than the depth camera 2.
  • a high-resolution depth camera for example, an industrial high-precision real-time 3D scanner (product name: “PhoXiScanner”) of Photoneo can be used.
  • the luminance image B and the depth image Dlow are input to the NN model 4.
  • the estimated depth image De output from the NN model 4 and the depth image Dhigh which is the correct data are compared, and the error (difference) between them is calculated.
  • this error is fed back to the NN model 4, and the internal parameter ⁇ of the NN model 4 is adjusted so that the error is minimized.
  • the NN model 4 is optimized so that an appropriate output can be obtained for various inputs by repeatedly performing the above-described processing using a large amount of various teacher data.
  • the high-resolution depth camera used when collecting the teacher data has a function of generating and outputting the confidence factor image C
  • a part of the teacher data is included in the depth image Dhigh. You may use the certainty factor image C showing the certainty factor of a depth value.
  • FIG. 5 is a block configuration diagram showing a detailed configuration of the learning processing unit 5.
  • the learning processing unit 5 has an error calculation unit 5a, a filter processing unit 5b, an error evaluation unit 5c, and a gradient calculation unit 5d.
  • the output of the NN model 4A which is one form of the above-described NN model 4, that is, the estimated depth image De is the correct answer data with respect to the input of the luminance image B and the depth image Dlow that are the teacher data. It is evaluated based on the depth image Dhigh.
  • the error calculation unit 5a calculates an estimated error image E that is a two-dimensional set of errors based on the estimated depth image De and the depth image Dhigh that is the correct data. This error is calculated for each unit area as a value obtained by squaring the difference between the depth value of the estimated depth image De and the depth value corresponding to the position in the depth image Dhigh.
  • the filter processing unit 5b performs a filter process on the estimated depth image De based on the certainty factor image C that is a part of the teacher data. Specifically, each of the certainty factors (the certainty of the depth value in the depth image Dhigh) forming the certainty factor image C is compared with a predetermined determination threshold value ⁇ , and the unit region determined to have the lower certainty factor is compared. Regards the error in the error estimation image De as noise and changes its value to 0. By such a filter process, it is guaranteed that the unit area having a low certainty factor does not affect the learning (update of the internal parameter ⁇ ) of the NN model 4A. If it is not necessary to consider the influence of noise, this filtering process may be omitted.
  • the error evaluation unit 5c evaluates the estimated error image E'(the estimated error image E when the filter processing is omitted) that has been filtered by the filter processing unit 5b, and calculates the evaluation result as an error evaluation value Ve.
  • learning of a deep learning model is achieved by updating internal parameters in the process of minimizing an objective function, and this objective function is often expressed by the sum of an error function and a regularization term.
  • the error mean MAE; Mean Absolute Error
  • MSE Mel Squared Error
  • the output of the NN model 4 is a discrete value, it may be the average value of cross entropy.
  • the gradient calculator 5d calculates the gradient of the internal parameter ⁇ of the NN model 4A based on the error evaluation value Ve. For example, when the error average is used as the error average value Ve, the gradient of the internal parameter ⁇ is calculated so that the error average is minimized. Then, the NN model 4A is updated using a known method such as a batch gradient descent method, a stochastic gradient descent method, or a mini-batch gradient descent method.
  • the error is calculated for each unit area.
  • a discriminator used in a learning mechanism called GAN Geneative Adversarial Network discriminates an error (classification of genuine or fake). If the error) is calculated and used as the error evaluation value Ve, it is possible to evaluate the error for the entire image without calculating the error for each unit area.
  • the three blocks 5a to 5c shown in FIG. 5 are replaced with one block corresponding to the discriminator.
  • the filtering process is performed on the estimated depth image De and the depth image Dhigh before being input to the classifier.
  • the high-resolution depth camera p1 is located directly above the object A and acquires the depth image Dhigh (and the certainty factor image C).
  • the other eight low-resolution depth cameras p2 to p9 are arranged at different positions above the object A, and each obtains the luminance image B and the depth image Dlow.
  • the low-resolution depth cameras p2 to p9 have the same depth resolution as the depth camera 2 described above, and the depth image Dlow obtained by this is equivalent to the depth image Dlow obtained by the depth camera 2.
  • the high resolution depth camera p1 has a higher depth resolution than the depth camera 2.
  • the depth image Dhigh acquired by the high resolution depth camera p1 cannot be used as it is as the correct data of the depth image Dlow and the brightness image B acquired by the low resolution depth cameras p2 to p9.
  • the high-resolution depth camera p1 and the low-resolution depth cameras p2 to p9 arranged at different positions do not have the same viewpoint, and which unit area of the depth image Dhigh indicates which unit area of the depth image Dlow.
  • there is no positional correspondence such as whether it corresponds to a region. Therefore, in order to match the depth image Dhigh with the viewpoint of each depth image Dlow, coordinate conversion using affine transformation or the like is individually performed on the depth image Dhigh.
  • the coordinate transformation of the depth image Dhigh can be performed through two processes, that is, the transformation of the depth image Dhigh and the certainty factor image C into the intermediate coordinates, and the subsequent transformation into the camera coordinates.
  • a coordinate conversion function generated using an ArUco marker or the like is used in the conversion of the intermediate coordinates.
  • the depth image Dhigh and the certainty factor image C converted to the intermediate coordinates are further converted to the camera coordinates of the low resolution depth cameras p2 to p9.
  • the estimated depth image De based on the input of the luminance image B and the depth image Dlow is used by using the NN model 4 in which the internal parameter ⁇ is appropriately adjusted by sufficient learning in advance. Get the output. Then, the resolution of the depth image Dlow is increased based on the estimated depth image De.
  • the brightness image B alone can estimate the unevenness from the shadow of the object, but cannot restore the depth scale information. Further, the depth information Dlow alone does not provide sufficient depth information, and it is difficult to achieve reliable high resolution. Therefore, in the present embodiment, as an input of the NN model 4, the luminance image B capable of estimating the unevenness from the shadow of the object and the depth image Dlow including the depth scale information are combined.
  • FIG. 7 is a diagram showing a depth image of a partial cross section of pasta, which is an example of an object.
  • the solid line shows the depth of the low-resolution depth camera 2
  • the dotted line shows the estimated depth with higher resolution.
  • Relative unevenness due to noodles can be locally estimated from the shadow of the brightness image B, and by combining this with the depth image Dlow obtained by the depth camera 2, absolute unevenness can be estimated at each portion.
  • the estimated depth image De having a higher depth resolution than the depth image Dlow is obtained by considering both the depth scale information and the estimation of the unevenness. It is possible to increase the resolution of the scale with high accuracy.
  • an object can be recognized with high accuracy and high work accuracy can be realized.
  • the use of the present invention is not limited to the use of an industrial robot, and can be widely applied to various uses that require a high-resolution depth image.
  • the supervised learning is performed using the teacher data including the brightness image B, the depth image Dlow, and the depth image Dhigh (further, the certainty factor image C).
  • the internal parameter ⁇ of the model 4 can be adjusted appropriately and satisfactorily.
  • a plurality of depth cameras are arranged at different positions and data of various viewpoints are collected, so that the depth camera 2 can be attached at the position where the object is recognized. It is possible to always obtain a highly reliable output (estimated depth image De) from the NN model 4 without depending on it.
  • the output of the NN model 4 is not the depth value itself but the input depth image Dlow. It may be a depth difference (a high-resolution difference value).
  • FIG. 8 is a block configuration diagram of the learning processing unit 5 according to such a modification.
  • the NN model 4B which is one form of the NN model 4, is constructed as a model for estimating the depth difference, unlike the above-described NN model 4A that estimates the depth value, and the depth value of the input depth image Dlow is set.
  • the estimated depth difference image De′ is output as a set of depth differences that are the differences between Then, the error calculating unit 5a calculates the additional depth image by adding the estimated depth difference image De' to the low resolution depth image Dlow for each unit area, and then compares this additional depth image with the high resolution depth image. Thus, the estimated error image E is calculated.
  • FIG. 9 is a block diagram of the depth processing unit 3.
  • the depth processing unit 3 includes an adder 3a, and determines the depth value of the depth image Dlow acquired by the depth camera 2 and the depth difference of the estimated depth image De' output from the NN model 4B for each unit area. to add. Then, the added depth image (set of added values) thus obtained is output as the depth image Dhigh.
  • the depth camera 2 is typically assumed as an imaging unit that images an object and acquires the images B and Dlow, but these images B and Dlow may be acquired by separate units.
  • coordinate conversion is performed on one of the images B and Dlow so that the same viewpoint as that of the other image is obtained, in other words, the positional correspondence of the unit areas between the images B and Dlow can be obtained.
  • Software-like processing may be performed.
  • the present invention is a computer program (depth processing program) that equivalently realizes the functional blocks configuring the depth processing system 1 described above by a computer and increases the resolution of the depth image Dlow acquired by the depth camera 2. It can be captured.

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

深度カメラによって取得された深度画像を精度よく高分解能化する。ニューラルネットワークモデル4は、物体の輝度画像Bおよび所定の深度分解能を有する深度画像Dlowの入力に対して、深度画像Dlowよりも深度分解能が高い推定深度画像Dhighが出力されるように、自己が有する関数の内部パラメータが調整されている。深度カメラ2は、物体を撮像して、輝度画像Bおよび深度画像Dlowを取得する。深度処理部3は、深度カメラ2によって取得された輝度画像Bおよび深度画像Dlowの入力に対して、ニューラルネットワークモデル4から出力された推定深度画像Deに基づいて、深度画像Dlowを高分解能化した深度画像Dhighを出力する。

Description

深度処理システム、深度処理プログラムおよび深度処理方法
 本発明は、深度画像を処理する深度処理システム、深度処理プログラムおよび深度処理方法に関する。
 従来、深度画像を高分解能化する手法が知られている。例えば、特許文献1には、深度依存ピクセル平均化関数を利用して、深度画像を高解像度化する深度マップの改善方法が開示されている。具体的には、まず、キャプチャーすべき特定のシーンについて、複数の深度カメラを用いて、互いに異なる撮像方向から一群の深度画像が取得される。つぎに、それぞれの深度カメラに対する深度依存ピクセル平均化関数が取得される。そして、深度依存ピクセル平均化関数を利用して、深度画像群を統合し、このシーンに関する高解像度深度画像が生成される。
 また、特許文献2には、距離画像の解像度を高速かつ高精度で変換する距離画像解像度変換装置が開示されている。具体的には、まず、処理対象となる距離画像と、この距離画像と同じ位置に存在する被写体を撮影した色画像とが入力される。つぎに、入力された距離画像に対してノイズ除去を行うことによって、ノイズ除去済み距離画像が生成される。つぎに、距離画像と、ノイズ除去済み距離画像と、色画像とに基づいて、距離画像に対して自己相関を利用したアップサンプル処理を行うことによって、SSM部高解像度距離画像が生成される。そして、ノイズ除去済み距離画像と、SSM部高解像度距離画像とに基づいて、線形予測によるアップサンプル処理を行うことによって、PLU部高解像度距離画像が生成される。
 一方、深度画像の処理に関するものではないが、特許文献3には、ディープラーニングを用いて、実世界の既存の輝度画像から新たなビューを予測するシステムが開示されている。このシステムでは、個々の光景に対応するポーズ画像を多数用いて訓練され、かつ、新たなビューの合成を画素から直接実行するディープアーキテクチャが用いられる。このようなディープネットワークを利用したシステムは、隣接ビューの画素に基づいて、見たことがないビューの画素を生成するといったグラフィックス用途に適している。
特表2017-527042号公報 特開2017-224169号公報 特表2018-514031号公報
 ところで、産業用ロボットなどの分野では、既知の物体(ワーク)に対する所定の作業を高い精度で行うために、深度を含む物体の三次元情報を高い分解能で認識する必要がある。例えば、食材の一つであるパスタの定量ピッキングでは、盛付け量の許容誤差の関係上、麺1本(1mm)程度の凹凸が見分けられる程の深度分解能が要求される。しかしながら、このような高分解能な深度カメラは高価であることから、深度分解能が低い安価な深度カメラを用いて、ソフトウェア技術によって深度画像を高分解能化する手法の開発が望まれている。
 本発明は、かかる事情に鑑みてなされたものであり、その目的は、深度カメラによって取得された深度画像を精度よく高分解能化することである。
 かかる課題を解決すべく、第1の発明は、ニューラルネットワークモデルと、第1の撮像部と、深度処理部とを有し、深度画像を処理する深度処理システムを提供する。ニューラルネットワークモデルは、物体の輝度画像および所定の深度分解能を有する深度画像の入力に基づいて、この深度画像よりも深度分解能が高い画像を出力する。第1の撮像部は、物体を撮像して、第1の輝度画像および第1の深度画像を取得する。深度処理部は、第1の撮像部によって取得された第1の輝度画像および第1の深度画像の入力に基づくニューラルネットワークモデルの出力に基づいて、第1の深度画像を高分解能化する。
 ここで、第1の発明において、上記深度処理部は、ニューラルネットワークモデルから出力され、かつ、第1の深度画像よりも深度分解能が高い深度値を示す推定深度画像を、上記高分解能化した処理結果として出力してもよい。また、これに代えて、上記深度処理部は、ニューラルネットワークモデルから出力され、かつ、第1の深度画像に対する深度差を示す推定深度差画像と、第1の深度画像とを加算することによって得られた加算深度画像を、上記高分解能化した処理結果として出力してもよい。
 第1の発明において、上記ニューラルネットワークモデルは、入力された輝度画像および深度画像の特徴に基づいた出力が得られるように、自己が有する関数の内部パラメータが調整されていることが好ましい。
 第1の発明において、輝度画像と、深度画像に相当する深度分解能を有する低分解能深度画像と、低分解能深度画像よりも深度分解能が高い高分解能深度画像とを有する教師データを用いた教師あり学習によって、ニューラルネットワークモデルの内部パラメータを調整する学習処理部をさらに設けてもよい。この場合、上記輝度画像および上記低分解能深度画像は、第1の撮像部と同等の深度分解能を有する第2の撮像部によって取得され、上記高分解能深度画像は、第2の撮像部とは異なる位置に配置され、第2の撮像部よりも深度分解能が高い第3の撮像部によって取得され、かつ、第2の撮像部と視点を一致させるために、座標変換が行われていることが好ましい。また、上記輝度画像および上記低分解能深度画像は、互いに異なる位置に配置された複数の第2の撮像部によって取得してもよい。
 第1の発明において、上記学習処理部は、誤差算出部と、誤差評価部と、勾配算出部とを有することが好ましい。誤差算出部は、ニューラルネットワークモデルの出力に基づいて低分解能深度画像を高分解能化した推定深度画像と、高分解能深度画像との誤差を示す推定誤差画像を算出する。誤差評価部は、推定誤差画像の誤差評価値を算出する。勾配算出部は、誤差評価値に基づいて、ニューラルネットワークモデルの内部パラメータの勾配を算出する。ここで、上記学習処理部は、第3の撮像部によって取得され、かつ、高分解能深度画像における深度値の確信度を示す確信度画像に基づいて、推定誤差画像に対するフィルタ処理を行うフィルタ処理部を有していてもよい。この場合、上記誤差評価部は、フィルタ処理部によってフィルタ処理が行われた推定誤差画像に基づいて、誤差評価値を算出することが好ましい。
 第2の発明は、以下のステップを有する処理をコンピュータに実行させることによって、深度画像を処理する深度処理プログラムを提供する。第1のステップでは、ニューラルネットワークモデルに、第1の撮像部で物体を撮像することによって取得された第1の輝度画像および第1の深度画像を入力する。ニューラルネットワークモデルは、物体の輝度画像および所定の深度分解能を有する深度画像の入力に対して、この深度画像よりも深度分解能が高い画像を出力する。第2のステップでは、ニューラルネットワークモデルの出力に基づいて、第1の深度画像を高分解能化する。
 第3の発明は、以下のステップを有し、深度画像を処理する深度処理方法を提供する。第1のステップでは、ニューラルネットワークモデルに、第1の撮像部で物体を撮像することによって取得された第1の輝度画像および第1の深度画像を入力する。ニューラルネットワークモデルは、物体の輝度画像および所定の深度分解能を有する深度画像の入力に対して、この深度画像よりも深度分解能が高い画像を出力する。第2のステップでは、ニューラルネットワークモデルの出力に基づいて、第1の深度画像を高分解能化する。
 ここで、第2および第3の発明において、上記第2のステップは、ニューラルネットワークモデルから出力され、かつ、第1の深度画像よりも深度分解能が高い深度値を示す推定深度画像を、第1の深度画像を高分解能化した処理結果として出力してもよい。また、これに代えて、上記第2のステップは、ニューラルネットワークモデルから出力され、かつ、第1の深度画像に対する深度差を示す推定深度差画像と、第1の深度画像とを加算することによって得られた加算深度画像を、第1の深度画像を高分解能化した処理結果として出力してもよい。
 第2および第3の発明において、上記ニューラルネットワークモデルは、入力された輝度画像および深度画像の特徴に基づいた出力が得られるように、自己が有する関数の内部パラメータが調整されていることが好ましい。
 第2および第3の発明において、輝度画像と、深度画像に相当する深度分解能を有する低分解能深度画像と、低分解能深度画像よりも深度分解能が高い高分解能深度画像とを有する教師データを用いた教師あり学習によって、ニューラルネットワークモデルの内部パラメータを調整する第3のステップをさらに設けてもよい。ここで、上記輝度画像および上記低分解能深度画像は、第1の撮像部と同等の深度分解能を有する第2の撮像部によって取得され、上記高分解能深度画像は、第2の撮像部とは異なる位置に配置され、第2の撮像部よりも深度分解能が高い第3の撮像部によって取得され、かつ、第2の撮像部と視点を一致させるために、座標変換が行われていることが好ましい。この場合、上記輝度画像および上記低分解能深度画像は、互いに異なる位置に配置された複数の第2の撮像部によって取得してもよい。
 第2および第3の発明において、上記第3のステップは、ニューラルネットワークモデルの出力に基づいて低分解能深度画像を高分解能化した推定深度画像と、高分解能深度画像との誤差を示す推定誤差画像を算出するステップと、推定誤差画像の誤差評価値を算出するステップと、誤差評価値に基づいて、ニューラルネットワークモデルの内部パラメータの勾配を算出するステップとを有することが好ましい。この場合、上記第3のステップは、誤差評価値の算出に先立ち、第3の撮像部によって取得され、かつ、高分解能深度画像における深度値の確信度を示す確信度画像に基づいて、推定誤差画像に対するフィルタ処理を行うステップをさらに有していてもよい。
 本発明によれば、ニューラルネットワークモデルの出力に基づいて、処理対象となる深度画像を高分解能化する。ニューラルネットワークモデルの入力として、物体の陰影から凹凸を推定可能な輝度画像と、深度のスケール情報が存在する深度画像とを組み合わせることで、第1の撮像部によって取得された深度のスケールを精度よく高分解能化することができる。
深度処理システムのブロック構成図 深度画像の高分解能化の概念図 高分解能化された深度画像の一例を示す図 ニューラルネットワークモデルに対する教師あり学習の概念図 学習処理部のブロック構成図 教師データの収集時における深度カメラの配置の説明図 盛り付けられたパスタの部分的な断面の深度イメージを示す図 変形例に係る学習処理部のブロック構成図 変形例に係る深度処理部のブロック構成図
 図1は、本実施形態に係る深度処理システムのブロック構成図である。この深度処理システム1は、例えば、既知の物体(ワーク)に対する所定の作業を行う産業用ロボットに実装、または、その物体認識システムの一部として用いられ、物体を撮像する撮像部によって取得された深度画像の深度スケールを高分解能化する。深度処理システム1は、物体を撮像する撮像部としての深度カメラ2と、深度処理部3と、ニューラルネットワークモデル4(以下、ニューラルネットワークを適宜「NN」と略称する。)と、学習処理部5とを主体に構成されている。
 深度カメラ2は、物体を含む撮像空間を撮像して、同一視点における輝度画像Bおよび深度画像Dlowを取得する。深度カメラ2としては、比較的安価で入手が容易なもの、例えば、インテル製の深度カメラ(製品名:”RealSense”)などを用いることができる。安価な深度カメラ2は、その深度分解能が低いものが大半であり、産業用ロボットの「目」として用いるには分解能が不足している。本実施形態は、このような深度カメラ2を用いて、ソフトウェア技術によって必要な深度分解能を確保するものである。
 本実施形態では、輝度画像Bの一例として、256階調のグレースケール画像を用いているが、グレースケール画像の代わりにRGB画像を用いてもよい。また、NNモデル4への入力に先立ち、深度カメラ2によって取得された輝度画像Bに対して、歪み補正などの前処理を行ってもよい。
 本明細書において、「画像」とは、所定の単位領域毎の特性値が並んだ二次元的な集合をいい、輝度画像Bは輝度値の集合、深度画像Dlowは深度値の集合として、それぞれ定義される。また、後出する各種画像について、深度画像Dhighは深度値、深度推定画像Deは深度値、推定深度画像De'は深度差、推定誤差画像E,E'は誤差値の集合として、それぞれ定義される。なお、特性値の単位領域は、典型的にはピクセルであるが、複数のピクセルによって構成されたピクセルブロックであっても構わない。また、輝度画像Bの単位領域がピクセル、深度画像Dlowの単位領域がピクセルブロックといった如く、特性値が異なる画像間において単位領域のサイズが異なっていてもよい。
 深度処理部3は、NNモデル4の入出力を通じて、深度画像Dlowを高分解能化した深度画像Dhighを出力する。図2は、深度画像Dlowの高分解能化の概念図である。NNモデル4には、深度カメラ2によって取得された輝度画像Bと、深度分解能が低い深度画像Dlowとが入力される。出力となる深度画像Dhighは、深度画像Dlowと同一のサイズで、かつ、深度画像Dlowと同一視点の深度画像であって、深度画像Dlowよりも深度スケールの分解能が高い。一例として、入力となる深度画像Dlowの階調を200階調とすると、出力となる深度画像Dhighとして、入力の10倍に相当する2000階調まで高分解能化される。これは、1cm程度の深度分解能が1mm程度にまで高まることに相当する。
 なお、図2では、輝度画像Bおよび深度画像Dlowの画像全体の入力に基づいて、深度画像Dhighの画像全体が出力されることを概念的に示しているが、実際には、入力画像B,Dlowを複数のブロック(画像領域)に分割した上で、多数のコアで構成されたグラフィックス・プロセッシング・ユニット(GPU)によって、それぞれのブロックが並列処理される。この点は、後述する教師あり学習においても同様である。
 図3は、深度画像Dlowを高分解能化した深度画像Dhighの一例を示す図であって、皿に盛り付けられたパスタの深度画像を示す。同図は、視覚的な理解を容易にすべく、深度値の大小をグレースケール(濃淡)として表している。同図左の深度画像Dlowでは、個々の麺に起因した凹凸を判別することは困難である。これに対して、同図右の深度画像Dhighでは、このような凹凸を判別できる程に精細な深度スケールを有していることが看て取れる。
 NNモデル4は、ニューラルネットワークを主体に構築されており、所定の問題解決能力を備えている。ここで、「ニューラルネットワーク」とは、ニューロンを数理モデル化したものの組み合わせであって、ニューラルネットワークとしての最も原始的な構成のみならず、畳み込みニューラルネットワーク(CNN)や再起型ニューラルネットワーク(RNN)の如く、その派生形や発展形などを広く包含する。本実施形態では、NNモデル4のアーキテクチャとして、画像処理で優れた性能を発揮するCNNを採用している。CNNは、主に畳み込み層と、プーリング層とによって構成されており、情報を符号化する際には畳み込み、情報を復号化する際には逆畳み込みの処理が行われる。畳み込み層は、画像の局所的な特徴を抽出し、プーリング層は、局所的な特徴をまとめ上げる処理を行う。このような処理を通じて、CNNでは、入力画像の特徴を維持しながら、画像が抽象化され、情報量を大幅に圧縮できる。
 NNモデル4は、所定の関数(Y=f(X,θ))を備えており、その内部パラメータθ、具体的には、ニューラルネットワークの結合重みは、入力画像B,Dlowの特徴に基づいた適切な出力画像Dhigh(正確には、後述する推定深度画像De)が得られるように、事前の学習によって予め調整されている。なお、NNモデル4の出力である推定深度画像Deが深度値の集合として定義されている場合、NNモデル4より出力された推定深度画像Deは、深度画像Dhighとして深度処理部3からそのまま出力される。
 学習処理部5は、教師データを用いた教師あり学習によって、NNモデル4の内部パラメータθを調整する。図4は、NNモデル4に対する教師あり学習の概念図である。教師データは、同一視点によって単位領域の位置的な対応関係が取れている3つの画像、すなわち、輝度画像B(入力データ)、深度分解能が低い深度画像Dlow(入力データ)、および、深度画像Dlowよりも深度分解能が高い深度画像Dhigh(正解データ)である。輝度画像Bおよび深度画像Dlowは、深度カメラ2と同様、深度分解能が低い汎用的かつ安価な深度カメラによって取得される。また、輝度画像Bに対しては、歪み補正などの前処理が行われていてもよい。一方、深度画像Dhighは、深度カメラ2よりも深度分解能が高い産業用途などに供される高価な深度カメラによって取得される。このような高分解能深度カメラとしては、例えば、フォトネオ社の産業用高精度リアルタイム3Dスキャナ(製品名:”PhoXi Scanner”)などを用いることができる。
 NNモデル4に対する教師あり学習の概略としては、まず、輝度画像Bおよび深度画像DlowがNNモデル4に入力される。つぎに、NNモデル4から出力された推定深度画像Deと、正解データである深度画像Dhighとが比較され、両者の誤差(差分)が算出される。そして、この誤差がNNモデル4にフィードバックされ、誤差が最小になるように、NNモデル4の内部パラメータθが調整される。以上のような処理を大量かつ多様な教師データを用いて繰り返し実行することで、様々な入力に対して適切な出力が得られるように、NNモデル4が最適化される。
 なお、詳細については後述するが、教師データを収集する際に用いられる高分解能深度カメラが確信度画像Cを生成・出力する機能を備えている場合、教師データの一部として、深度画像Dhighにおける深度値の確信度を表す確信度画像Cを用いてもよい。
 図5は、学習処理部5の詳細な構成を示すブロック構成図である。この学習処理部5は、誤差算出部5aと、フィルタ処理部5bと、誤差評価部5cと、勾配算出部5dとを有する。教師あり学習では、教師データである輝度画像Bおよび深度画像Dlowの入力に対して、上述したNNモデル4の一形態であるNNモデル4Aの出力、すなわち、推定深度画像Deが、正解データである深度画像Dhighに基づいて評価される。具体的には、まず、誤差算出部5aは、推定深度画像Deと、正解データである深度画像Dhighとに基づいて、誤差の二次元的な集合である推定誤差画像Eを算出する。この誤差は、推定深度画像Deの深度値と、深度画像Dhighにおける位置的に対応した深度値との差分を二乗した値として、単位領域毎に算出される。
 フィルタ処理部5bは、教師データの一部である確信度画像Cに基づいて、推定深度画像Deに対するフィルタ処理を行う。具体的には、確信度画像Cを構成する確信度(深度画像Dhighにおける深度値の確からしさ)のそれぞれを所定の判定しきい値αと比較し、確信度が低いと判定された単位領域については、誤差推定画像Deにおける誤差をノイズとみなして、その値を0に変更する。このようなフィルタ処理によって、確信度の低い単位領域については、NNモデル4Aの学習(内部パラメータθの更新)に影響を及ぼさないことが保証される。なお、ノイズの影響を考慮する必要がないのであれば、本フィルタ処理は省略しても構わない。
 誤差評価部5cは、フィルタ処理部5bによってフィルタ処理が行われた推定誤差画像E’(フィルタ処理の省略時には推定誤差画像E)を評価し、その評価結果を誤差評価値Veとして算出する。一般に、ディープラーニングモデルの学習は、目的関数の最小化の過程で内部パラメータを更新することによって達成され、この目的関数は、誤差関数と正則化項との和で表現されることが多い。本実施形態では、誤差平均(MAE;Mean Absolute Error)を用いているが、これに正規化項を含めたものを目的関数としてもよい。また、誤差平均の代わりに、NNモデル4の出力が連続値であれば、MSE(Mean Squared Error)や、それに類するものでもよい。さらに、NNモデル4の出力が離散値であれば、クロスエントロピーの平均値であってもよい。
 勾配算出部5dは、誤差評価値Veに基づいて、NNモデル4Aの内部パラメータθの勾配を算出する。例えば、誤差平均値Veとして誤差平均を用いる場合、誤差平均が最小になるように、内部パラメータθの勾配が算出される。そして、バッチ勾配降下法、確率的勾配降下法、ミニバッチ勾配降下法といった既知の手法を用いて、NNモデル4Aの更新が行われる。
 なお、以上の誤差評価方法では、単位領域毎に誤差を算出しているが、例えば、GAN(Generative Adversarial Network)と呼ばれる学習の仕組みで用いられる識別器にて識別誤差(本物か偽物かの分類誤差)を算出し、これを誤差評価値Veとして用いれば、単位領域毎の誤差を算出することなく、画像全体で誤差を評価することも可能である。この場合、図5に示した3つのブロック5a~5cは、識別器に相当する1つのブロックに置き換えられる。また、フィルタ処理は、識別器に入力される前の推定深度画像Deおよび深度画像Dhighに対して行われる。
 ところで、物体の認識に際して、深度カメラ2の取付位置に依存することなく、NNモデル4から常に信頼性の高い出力を得るためには、教師あり学習時において、大量の教師データを用いることのみならず、多様な視点の教師データを用いる必要がある。かかる観点から、教師データの収集に際しては、図6に示すように、物体Aの周囲に複数の深度カメラp1~p9を配置し、これらを用いて、教師データを同時並行的に収集することが好ましい。具体的には、認識すべき物体Aの周囲に、アルミなどの剛性の高い材料で形成された立方体状のフレーム6が配置され、このフレーム6における既知の位置に深度カメラp1~p9が取り付けられる。高分解能深度カメラp1は、物体Aの直上に位置しており、深度画像Dhigh(および確信度画像C)を取得する。また、これ以外の8つの低分解能深度カメラp2~p9は、物体Aの上方における異なる位置に配置されており、それぞれが輝度画像Bおよび深度画像Dlowを取得する。低分解能深度カメラp2~p9は、上述した深度カメラ2と同等の深度分解能を有しており、これによって取得される深度画像Dlowは、深度カメラ2によって取得される深度画像Dlowに相当する深度分解能を有する。また、高分解能深度カメラp1は、深度カメラ2よりも高い深度分解能を有する。これらの深度カメラp1~p9により、異なる視点の教師データを効率的に収集できる。
 その際、高分解能深度カメラp1によって取得された深度画像Dhighは、そのままでは、低分解能深度カメラp2~p9によって取得された深度画像Dlowおよび輝度画像Bの正解データとして用いることはできない。なぜなら、高分解能深度カメラp1と、これと異なる位置に配置された低分解能深度カメラp2~p9とでは、視点が一致しておらず、深度画像Dhighのどの単位領域が深度画像Dlow等のどの単位領域に対応するのかといった位置的な対応関係が取れていないからである。そこで、深度画像Dhighをそれぞれの深度画像Dlow等の視点に一致させるべく、深度画像Dhighに対して、アフィン変換などを用いた座標変換が個別に行われる。深度画像Dhighの座標変換は、深度画像Dhighおよび確信度画像Cに対する中間座標への変換と、これに続くカメラ座標への変換という2つのプロセスを経て行うことができる。中間座標の変換では、ArUcoマーカーなどを用いて生成された座標変換関数が用いられる。そして、中間座標に変換された深度画像Dhighおよび確信度画像Cは、低分解能深度カメラp2~p9の各カメラ座標に更に変換される。
 このように、本実施形態によれば、事前の十分な学習によって内部パラメータθが適切に調整されたNNモデル4を用いて、輝度画像Bおよび深度画像Dlowの入力に基づいた推定深度画像Deの出力を得る。そして、この推定深度画像Deに基づいて、深度画像Dlowが高分解能化される。一般に、輝度画像Bだけでは、物体の陰影から凹凸を推定することはできても、深度のスケール情報までは復元できない。また、深度画像Dlowだけでは、深度の情報が足らず、信頼性のある高分解能化は困難である。そこで、本実施形態では、NNモデル4の入力として、物体の陰影から凹凸を推定可能な輝度画像Bと、深度のスケール情報が存在する深度画像Dlowとを組み合わせている。
 図7は、物体の一例であるパスタの部分的な断面の深度イメージを示す図である。同図下の深度分布において、実線は、低分解能な深度カメラ2の深度を示し、点線は、これよりも高分解能な推定深度を示している。輝度画像Bの陰影から麺と麺による相対的な凹凸が局所的に推定でき、これを深度カメラ2による深度画像Dlowと組み合わせることで、絶対的な凹凸を各部分で推定できる。このように、ディープラーニングにおいて、深度のスケール情報および凹凸の推定の双方を考慮して、深度画像Dlowよりも深度分解能が高い推定深度画像Deを得ることで、深度カメラ2によって取得された深度のスケールを精度よく高分解能化することが可能になる。その結果、例えば、産業用ロボットの「目」などの用途において、物体を高い精度で認識でき、高い作業精度を実現できる。なお、本発明の用途は、産業用ロボットの用途に限定されるものではなく、高分解能な深度画像を必要とする様々な用途に対して、広く適用可能であることはいうまでもない。
 また、本実施形態によれば、輝度画像B、深度画像Dlow、および、深度画像Dhigh(さらに、必要に応じて確信度画像C)を有する教師データを用いた教師あり学習を行うことで、NNモデル4の内部パラメータθを適切かつ良好に調整することができる。
 さらに、本実施形態によれば、教師データの収集に際して、互いに異なる位置に複数の深度カメラを配置し、多様な視点のデータを収集することで、物体の認識時における深度カメラ2の取付位置に依存することなく、NNモデル4から常に信頼性の高い出力(推定深度画像De)を得ることができる。
 なお、上述した実施形態では、NNモデル4Aが推定深度画像Deとして深度値を出力する例について説明したが、NNモデル4の出力としては、深度値そのものではなく、入力された深度画像Dlowとの深度差(高分解能化された差分値)であってもよい。
 図8は、このような変形例に係る学習処理部5のブロック構成図である。NNモデル4の一形態であるNNモデル4Bは、深度値を推定する上述したNNモデル4Aとは異なり、深度差を推定するためのモデルとして構築されており、入力された深度画像Dlowの深度値との差分である深度差の集合として、推定深度差画像De’を出力する。そして、誤差算出部5aは、低分解能深度画像Dlowに推定深度差画像De’を単位領域毎に加算することによって加算深度画像を算出した上で、この加算深度画像を高分解能深度画像と比較することによって、推定誤差画像Eを算出する。
 図9は、深度処理部3のブロック構成図である。深度処理部3は、加算器3aを備えており、深度カメラ2によって取得された深度画像Dlowの深度値と、NNモデル4Bから出力された推定深度画像De’の深度差とを単位領域毎に加算する。そして、これによって得られた加算深度画像(加算値の集合)を、深度画像Dhighとして出力する。
 以上に述べた事項以外については、上述した実施形態と同様なので、同一の符号を付して、ここでの説明を省略する。
 なお、物体を撮像して画像B,Dlowを取得する撮像部としては、典型的には、深度カメラ2が想定されるが、これらの画像B,Dlowは別個のユニットで取得してもよい。この場合、画像B,Dlowの一方に対して座標変換を施し、他方の画像と同一視点になるように、換言すれば、画像B,Dlow間における単位領域の位置的な対応関係が取れるように、ソフトウェア的な処理を行えばよい。
 さらに、本発明は、上述した深度処理システム1を構成する機能ブロックをコンピュータで等価的に実現し、深度カメラ2によって取得された深度画像Dlowを高分解能化するコンピュータ・プログラム(深度処理プログラム)として捉えることもできる。
 1 深度処理システム
 2 深度カメラ
 3 深度処理部
 3a 加算器
 4,4A,4B ニューラルネットワークモデル(NNモデル)
 5 学習処理部
 5a 誤差算出部
 5b フィルタ処理部
 5c 誤差評価部
 5d 勾配算出部
 6 フレーム

 

Claims (19)

  1.  深度画像を処理する深度処理システムにおいて、
     物体の輝度画像および所定の深度分解能を有する深度画像の入力に基づいて、当該深度画像よりも深度分解能が高い画像を出力するニューラルネットワークモデルと、
     物体を撮像して、第1の輝度画像および第1の深度画像を取得する第1の撮像部と、
     前記第1の撮像部によって取得された第1の輝度画像および第1の深度画像の入力に基づく前記ニューラルネットワークモデルの出力に基づいて、前記第1の深度画像を高分解能化する深度処理部と
    を有することを特徴とする深度処理システム。
  2.  前記深度処理部は、前記ニューラルネットワークモデルから出力され、かつ、前記第1の深度画像よりも深度分解能が高い深度値を示す推定深度画像を、前記高分解能化した処理結果として出力することを特徴とする請求項1に記載された深度処理システム。
  3.  前記深度処理部は、前記ニューラルネットワークモデルから出力され、かつ、前記第1の深度画像に対する深度差を示す推定深度差画像と、前記第1の深度画像とを加算することによって得られた加算深度画像を、前記高分解能化した処理結果として出力することを特徴とする請求項1に記載された深度処理システム。
  4.  前記ニューラルネットワークモデルは、入力された輝度画像および深度画像の特徴に基づいた出力が得られるように、自己が有する関数の内部パラメータが調整されていることを特徴とする請求項1に記載された深度処理システム。
  5.  前記輝度画像と、前記深度画像に相当する深度分解能を有する低分解能深度画像と、前記低分解能深度画像よりも深度分解能が高い高分解能深度画像とを有する教師データを用いた教師あり学習によって、前記ニューラルネットワークモデルの内部パラメータを調整する学習処理部をさらに有することを特徴とする請求項4に記載された深度処理システム。
  6.  前記輝度画像および前記低分解能深度画像は、前記第1の撮像部と同等の深度分解能を有する第2の撮像部によって取得され、
     前記高分解能深度画像は、前記第2の撮像部とは異なる位置に配置され、前記第2の撮像部よりも深度分解能が高い第3の撮像部によって取得され、かつ、前記第2の撮像部と視点を一致させるために、座標変換が行われていることを特徴とする請求項5に記載された深度処理システム。
  7.  前記輝度画像および前記低分解能深度画像は、互いに異なる位置に配置された複数の前記第2の撮像部によって取得されることを特徴とする請求項6に記載された深度処理システム。
  8.  前記学習処理部は、
     前記ニューラルネットワークモデルの出力に基づいて前記低分解能深度画像を高分解能化した推定深度画像と、前記高分解能深度画像との誤差を示す推定誤差画像を算出する誤差算出部と、
     前記推定誤差画像の誤差評価値を算出する誤差評価部と、
     前記誤差評価値に基づいて、前記ニューラルネットワークモデルの内部パラメータの勾配を算出する勾配算出部と
    を有することを特徴とする請求項5から7のいずれかに記載された深度処理システム。
  9.  前記学習処理部は、
     前記第3の撮像部によって取得され、かつ、前記高分解能深度画像における深度値の確信度を示す確信度画像に基づいて、前記推定誤差画像に対するフィルタ処理を行うフィルタ処理部をさらに有し、
     前記誤差評価部は、前記フィルタ処理部によってフィルタ処理が行われた推定誤差画像に基づいて、前記誤差評価値を算出することを特徴とする請求項8に記載された深度処理システム。
  10.  深度画像を処理する深度処理プログラムにおいて、
     物体の輝度画像および所定の深度分解能を有する深度画像の入力に対して、当該深度画像よりも深度分解能が高い画像を出力するニューラルネットワークモデルに、第1の撮像部で物体を撮像することによって取得された第1の輝度画像および第1の深度画像を入力する第1のステップと、
     前記ニューラルネットワークモデルの出力に基づいて、前記第1の深度画像を高分解能化する第2のステップと
    を有する処理をコンピュータに実行させることを特徴とする深度処理プログラム。
  11.  前記第2のステップは、前記ニューラルネットワークモデルから出力され、かつ、前記第1の深度画像よりも深度分解能が高い深度値を示す推定深度画像を、前記第1の深度画像を高分解能化した処理結果として出力することを特徴とする請求項10に記載された深度処理プログラム。
  12.  前記第2のステップは、前記ニューラルネットワークモデルから出力され、かつ、前記第1の深度画像に対する深度差を示す推定深度差画像と、前記第1の深度画像とを加算することによって得られた加算深度画像を、前記第1の深度画像を高分解能化した処理結果として出力することを特徴とする請求項10に記載された深度処理プログラム。
  13.  前記ニューラルネットワークモデルは、入力された輝度画像および深度画像の特徴に基づいた出力が得られるように、自己が有する関数の内部パラメータが調整されていることを特徴とする請求項10に記載された深度処理プログラム。
  14.  前記輝度画像と、前記深度画像に相当する深度分解能を有する低分解能深度画像と、前記低分解能深度画像よりも深度分解能が高い高分解能深度画像とを有する教師データを用いた教師あり学習によって、前記ニューラルネットワークモデルの内部パラメータを調整する第3のステップをさらに有することを特徴とする請求項13に記載された深度処理プログラム。
  15.  前記輝度画像および前記低分解能深度画像は、前記第1の撮像部と同等の深度分解能を有する第2の撮像部によって取得され、
     前記高分解能深度画像は、前記第2の撮像部とは異なる位置に配置され、前記第2の撮像部よりも深度分解能が高い第3の撮像部によって取得され、かつ、前記第2の撮像部と視点を一致させるために、座標変換が行われていることを特徴とする請求項14に記載された深度処理プログラム。
  16.  前記輝度画像および前記低分解能深度画像は、互いに異なる位置に配置された複数の前記第2の撮像部によって取得されることを特徴とする請求項13に記載された深度処理プログラム。
  17.  前記第3のステップは、
     前記ニューラルネットワークモデルの出力に基づいて前記低分解能深度画像を高分解能化した推定深度画像と、前記高分解能深度画像との誤差を示す推定誤差画像を算出するステップと、
     前記推定誤差画像の誤差評価値を算出するステップと、
     前記誤差評価値に基づいて、前記ニューラルネットワークモデルの内部パラメータの勾配を算出するステップと
    を有することを特徴とする請求項14から16のいずれかに記載された深度処理プログラム。
  18.  前記第3のステップは、
     前記誤差評価値の算出に先立ち、前記第3の撮像部によって取得され、かつ、前記高分解能深度画像における深度値の確信度を示す確信度画像に基づいて、前記推定誤差画像に対するフィルタ処理を行うステップをさらに有することを特徴とする請求項17に記載された深度処理プログラム。
  19.  深度画像を処理する深度処理方法において、
     物体の輝度画像および所定の深度分解能を有する深度画像の入力に対して、当該深度画像よりも深度分解能が高い画像を出力するニューラルネットワークモデルに、第1の撮像部で物体を撮像することによって取得された第1の輝度画像および第1の深度画像を入力する第1のステップと、
     前記ニューラルネットワークモデルの出力に基づいて、前記第1の深度画像を高分解能化する第2のステップと
    を有することを特徴とする深度処理方法。

     
PCT/JP2018/044939 2018-12-06 2018-12-06 深度処理システム、深度処理プログラムおよび深度処理方法 WO2020115866A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2018/044939 WO2020115866A1 (ja) 2018-12-06 2018-12-06 深度処理システム、深度処理プログラムおよび深度処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2018/044939 WO2020115866A1 (ja) 2018-12-06 2018-12-06 深度処理システム、深度処理プログラムおよび深度処理方法

Publications (1)

Publication Number Publication Date
WO2020115866A1 true WO2020115866A1 (ja) 2020-06-11

Family

ID=70974146

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/044939 WO2020115866A1 (ja) 2018-12-06 2018-12-06 深度処理システム、深度処理プログラムおよび深度処理方法

Country Status (1)

Country Link
WO (1) WO2020115866A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112767294A (zh) * 2021-01-14 2021-05-07 Oppo广东移动通信有限公司 深度图像的增强方法、装置、电子设备以及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014106543A (ja) * 2012-11-22 2014-06-09 Canon Inc 画像処理装置、画像処理方法及びプログラム
JP2017146957A (ja) * 2016-02-19 2017-08-24 トヨタ自動車株式会社 深層畳み込みニューラルネットワークによるレイヤベースの物体検出の強化
JP2018526743A (ja) * 2015-12-22 2018-09-13 三菱電機株式会社 検知された測定値を融合する方法及びシステム
JP2018147286A (ja) * 2017-03-07 2018-09-20 オムロン株式会社 対象物解析装置、対象物解析方法、学習装置及び学習方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014106543A (ja) * 2012-11-22 2014-06-09 Canon Inc 画像処理装置、画像処理方法及びプログラム
JP2018526743A (ja) * 2015-12-22 2018-09-13 三菱電機株式会社 検知された測定値を融合する方法及びシステム
JP2017146957A (ja) * 2016-02-19 2017-08-24 トヨタ自動車株式会社 深層畳み込みニューラルネットワークによるレイヤベースの物体検出の強化
JP2018147286A (ja) * 2017-03-07 2018-09-20 オムロン株式会社 対象物解析装置、対象物解析方法、学習装置及び学習方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
TAKAOKA, RYOTARO ET AL.: "The super-resolution of depth camera using high-resolution color information", ITE TECHNICAL REPORT, vol. 39, no. 8, 21 February 2015 (2015-02-21), pages 99 - 102 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112767294A (zh) * 2021-01-14 2021-05-07 Oppo广东移动通信有限公司 深度图像的增强方法、装置、电子设备以及存储介质
CN112767294B (zh) * 2021-01-14 2024-04-26 Oppo广东移动通信有限公司 深度图像的增强方法、装置、电子设备以及存储介质

Similar Documents

Publication Publication Date Title
CN110008915B (zh) 基于掩码-rcnn进行稠密人体姿态估计的系统及方法
US11610082B2 (en) Method and apparatus for training neural network model used for image processing, and storage medium
KR102574141B1 (ko) 이미지 디스플레이 방법 및 디바이스
JP6560480B2 (ja) 画像処理システム、画像処理方法、及びプログラム
CN110378838B (zh) 变视角图像生成方法,装置,存储介质及电子设备
TWI455062B (zh) 三維視訊內容產生方法
CN109903331B (zh) 一种基于rgb-d相机的卷积神经网络目标检测方法
JP2010072694A (ja) 動態推定装置、動態推定方法、プログラム
CN111160291B (zh) 基于深度信息与cnn的人眼检测方法
CN111354077B (zh) 一种基于双目视觉的三维人脸重建方法
KR101829733B1 (ko) 2차원 이미지를 3차원 그래픽 모델로 변환하는 방법
CN110866882B (zh) 基于深度置信度的分层联合双边滤波深度图修复方法
CN111027415B (zh) 一种基于偏振图像的车辆检测方法
JP5068732B2 (ja) 3次元形状生成装置
RU2419880C2 (ru) Способ и устройство для вычисления и фильтрации карты диспарантности на основе стерео изображений
CN108550167B (zh) 深度图像生成方法、装置及电子设备
CN114693760A (zh) 图像校正方法、装置及系统、电子设备
KR101125061B1 (ko) Ldi 기법 깊이맵을 참조한 2d 동영상의 3d 동영상 전환방법
CN115457176A (zh) 一种图像生成方法、装置、电子设备及存储介质
WO2020115866A1 (ja) 深度処理システム、深度処理プログラムおよび深度処理方法
JP2023003763A (ja) 学習装置、画像処理装置、学習処理方法、及びプログラム
CN107403448B (zh) 代价函数生成方法和代价函数生成装置
CN113569896A (zh) 基于图像和深度数据进行对象3d定位的计算机实现方法
JP2021128592A (ja) 画像処理装置、画像処理方法、学習済みモデルの生成方法、およびプログラム
CN112102347B (zh) 一种基于双目视觉的台阶检测和单级台阶高度估计方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18942329

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2020558754

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18942329

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP