WO2022019128A1 - Information processing device, information processing method, and computer-readable recording medium - Google Patents

Information processing device, information processing method, and computer-readable recording medium Download PDF

Info

Publication number
WO2022019128A1
WO2022019128A1 PCT/JP2021/025736 JP2021025736W WO2022019128A1 WO 2022019128 A1 WO2022019128 A1 WO 2022019128A1 JP 2021025736 W JP2021025736 W JP 2021025736W WO 2022019128 A1 WO2022019128 A1 WO 2022019128A1
Authority
WO
WIPO (PCT)
Prior art keywords
value
information processing
depth
depth value
target portion
Prior art date
Application number
PCT/JP2021/025736
Other languages
French (fr)
Japanese (ja)
Inventor
宏基 水野
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Publication of WO2022019128A1 publication Critical patent/WO2022019128A1/en

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01BMEASURING LENGTH, THICKNESS OR SIMILAR LINEAR DIMENSIONS; MEASURING ANGLES; MEASURING AREAS; MEASURING IRREGULARITIES OF SURFACES OR CONTOURS
    • G01B11/00Measuring arrangements characterised by the use of optical techniques
    • G01B11/24Measuring arrangements characterised by the use of optical techniques for measuring contours or curvatures

Definitions

  • Non-Patent Document 1 describes a method of generating a target three-dimensional model based on depth information.
  • the distance value to the surface of the target is calculated for each position (voxel) in the space based on the distance image mapping the depth to the target.
  • a three-dimensional model is generated by connecting the positions where the distance value becomes 0. This makes it possible to accurately restore the shape of the target even if the depth detection accuracy is uneven (pages 3-4 of Non-Patent Document 1, FIGS. 2, 5, etc.). ..
  • the technology for detecting 3D shapes in this way has become more familiar due to the miniaturization of sensors, etc., and is expected to be applied in various scenes. Therefore, there is a demand for a technique capable of detecting a three-dimensional shape with high accuracy.
  • the information processing device includes an acquisition unit and a setting unit.
  • the acquisition unit acquires the depth value of the target portion of the real object irradiated with the irradiation light by the ToF method.
  • a computer-readable recording medium records a program that causes a computer system to perform the following steps.
  • the outward-facing camera 12 is a monocular RGB camera capable of capturing color moving images and still images.
  • the image taken by the outward-facing camera 12 is output to the display 10 in real time, for example. This enables the user to shoot an object while checking the state of the image to be shot.
  • a digital camera including an image sensor such as a CMOS (Complementary Metal-Oxide Semiconductor) sensor or a CCD (Charge Coupled Device) sensor can be used. In addition, any configuration may be adopted.
  • CMOS Complementary Metal-Oxide Semiconductor
  • CCD Charge Coupled Device
  • the 3D model 2 of the object 1 is generated based on the depth map acquired while the user moves around the object 1. More specifically, volume data representing the position of the surface of the object 1 is generated for each depth map. Then, the 3D model 2 is generated based on the data (integrated volume data) in which each volume data is integrated. This point will be described in detail later.
  • the microphone 16 is a sound collecting element that detects voice around the mobile terminal 100.
  • the speaker 17 is a reproduction element that reproduces voice or the like output from the mobile terminal 100. As shown in FIG. 1A, the microphone 16 is arranged below the front surface 13 of the mobile terminal 100. The speaker 17 is arranged on the upper side of the front surface 13 of the mobile terminal 100.
  • the communication unit 18 is a module for executing network communication, short-range wireless communication, and the like with other devices. For example, a wireless LAN module such as WiFi and a communication module such as Bluetooth (registered trademark) are provided.
  • the specific configuration of the microphone 16, the speaker 17, and the communication unit 18 is not limited.
  • the data acquisition unit 31 generates various data from the output of each sensor (ToF camera 11 or the like) provided in the mobile terminal 100. As shown in FIG. 3, the data acquisition unit 31 includes a shooting parameter acquisition unit 38, a depth map acquisition unit 39, and an infrared image acquisition unit 40.
  • the depth map acquisition unit 39 acquires the depth value of the target portion of the object 1 irradiated with infrared light by the ToF method. Specifically, the depth value of the target portion is calculated based on the output of the ToF camera 11.
  • the target portion is a portion to be measured for depth (depth value), and is, for example, a portion on the surface of the object 1 irradiated with infrared light.
  • the ToF camera 11 measures the round-trip flight time of the infrared light with respect to the target portion by detecting the infrared light reflected at the target portion.
  • the depth map acquisition unit 39 calculates the depth value of the target portion by using the data indicating the flight time and the speed of light.
  • the infrared image acquisition unit 40 generates an infrared image (IR image) of the object 1 based on the output of the ToF camera 11.
  • the ToF camera 11 measures the brightness (intensity) of the infrared light in, for example, a fixed exposure time when detecting the infrared light reflected by the target portion.
  • the brightness of the infrared light represents the brightness of the infrared light reflected at the target portion, and is, for example, a value corresponding to the reflection characteristic at the target portion.
  • the depth map acquisition unit 39 generates an infrared image of the object 1 based on the data indicating the brightness. That is, the infrared image is data in which the reflection characteristics of the target portion, which are different for each pixel, are recorded.
  • the process of generating an infrared image is always executed at a predetermined frame rate at the same time as the depth map, for example.
  • the reflection intensity is low in a portion where the incident angle of infrared light is shallow (that is, a portion where infrared light is incident along the surface) such as the side surface of the nose or the contour of the face.
  • the reflection intensity is high in the portion where the incident angle of the infrared light is deep (that is, the portion where the infrared light is incident at an angle close to perpendicular to the surface).
  • the infrared image 4 records the reflection intensity according to the shape of the object 1.
  • such an infrared image 4 is generated by the infrared image acquisition unit 40 described above.
  • the standard deviation ⁇ of the depth value becomes small. That is, the brighter the reflected infrared light, the lower the fluctuation (noise level) of the depth value tends to be.
  • the standard deviation ⁇ of the depth value tends to increase sharply, and the fluctuation of the depth value (noise level) tends to increase.
  • the TSDF calculation unit 44 sets the position coordinates of the voxel 7 as v, sets the distance between the voxel 7 and the target portion P in the detection direction of the depth value as D (v), and sets the voxel 7.
  • the weight value W (v) is set according to the equation (3), where W (v) is the weight value, the noise level of the depth value of the target portion P is ⁇ , and the preset adjustment coefficient is ⁇ .
  • the distribution of the weight value W (v) is not limited to the normal distribution, and any distribution having the maximum value at the target site P can be used.
  • FIG. 16 is a diagram showing an example of generating a 3D model.
  • FIG. 16A shows a 3D model 2 of a person's face generated by adjusting the width of the distribution of the weight value W (v) by applying the present technique.
  • FIG. 16B shows a 3D model 2 of a person's face generated without adjusting the width of the distribution of the weight value W (v).
  • the object 1 is arranged in the photographing area 201 surrounded by the ToF camera 11. That is, the photographing system 200 is a system that surrounds the object 1 with a plurality of ToF cameras 211 and photographs the object 1 from various directions.
  • the depth value is calculated based on the outputs of a plurality of ToF cameras 211 provided so as to surround the object 1.
  • the object 1 is simultaneously photographed by a plurality of ToF cameras 211, and the depth value is calculated for each pixel based on the output of each camera. This makes it possible to generate a plurality of depth maps 3 at once. Therefore, in the photographing system 200, even when the object 1 is moving, it is possible to accurately measure the shape at each moment.
  • Volume data 6 (position parameter F (v) and weight value W (v)) are generated for each of these depth maps 3. At this time, shooting parameters such as the position and posture of each ToF camera 211 are appropriately referred to. The shooting parameters are acquired, for example, by pre-calibration.
  • the weight value W (v) for example, the width of the distribution of the weight value W (v) is set according to the noise level calculated from the infrared image 4. in this way.
  • a ToF camera capable of acquiring an infrared image together with a depth value has been described as an example.
  • an infrared image cannot be acquired, it is possible to estimate the noise level of the depth value by using an image of another camera or the like.
  • a color camera outward facing camera, etc.
  • it can be used as a substitute for the brightness value of infrared light based on the image taken by the color camera. be.
  • the information processing method according to the present technology is executed by a computer such as a mobile terminal operated by the user has been described.
  • the information processing method and the program according to the present technology may be executed by a computer operated by the user and another computer capable of communicating via a network or the like.
  • the information processing method and program according to the present technology can be executed not only in a computer system composed of a single computer but also in a computer system in which a plurality of computers operate in conjunction with each other.
  • the system means a set of a plurality of components (devices, modules (parts), etc.), and it does not matter whether or not all the components are in the same housing. Therefore, a plurality of devices housed in separate housings and connected via a network, and one device in which a plurality of modules are housed in one housing are both systems.
  • the information processing method and program execution related to this technology by a computer system are, for example, acquisition of a depth value and setting of a weight value based on the target part regarding the distance parameter to the target part based on the depth value. Includes both when performed by one computer and when each process is performed by a different computer. Further, the execution of each process by a predetermined computer includes having another computer execute a part or all of the process and acquiring the result.
  • the setting unit is an information processing device that sets the weight values for each of the plurality of voxels so that the distribution of the weight values becomes a normal distribution that peaks at the target site.
  • the information processing apparatus according to any one of (3) to (5).
  • the irradiation light is infrared light, and is In the setting unit, the noise level of the depth value of the target portion is ⁇ , the brightness value of the infrared light reflected by the target portion is I, the first coefficient set in advance is A, and the preset portion is set in advance. With the set second coefficient as B, the noise level is calculated according to the following equation (1).
  • Information processing equipment (7) The information processing apparatus according to (6).
  • the information processing apparatus includes any one of (3) to (8).
  • the distance parameter is a distance obtained by normalizing the distance between the voxel and the target site in the detection direction of the depth value with a threshold value.
  • the model generation unit is an information processing device that calculates the distance parameter for the voxel in which the distance between the voxel and the target portion in the detection direction of the depth value is equal to or less than the threshold value.
  • the position coordinates of the voxel are v
  • the distance between the voxel and the target portion in the detection direction of the depth value is D (v)
  • the weight value set in the voxel is W (v).
  • the noise level of the depth value of the target portion is ⁇
  • the preset adjustment coefficient is ⁇
  • the weight value is set according to the following equation (2).
  • Information processing equipment (11) The information processing apparatus according to any one of (1) to (10).
  • the acquisition unit calculates the depth value based on the output of the ToF sensor that detects the irradiation light reflected by the target portion.

Abstract

The information processing device according to one aspect of the present technology comprises an acquisition unit and a setting unit. The acquisition unit acquires, by a ToF method, a depth value for a site of interest of a real object being irradiated with radiation light. The setting unit sets the width of a distribution of weighting values having the site of interest as a reference so as to be lower, in relation to a parameter for the distance to the site of interest as based on the depth value, as a brightness value of the radiation light reflected by the site of interest increases.

Description

情報処理装置、情報処理方法、及びコンピュータが読み取り可能な記録媒体Information processing equipment, information processing methods, and computer-readable recording media
 本技術は、形状測定に適用可能な情報処理装置、情報処理方法、及びコンピュータが読み取り可能な記録媒体に関する。 This technology relates to an information processing device applicable to shape measurement, an information processing method, and a computer-readable recording medium.
 従来、物体の3次元形状を検出する技術が開発されている。例えば、ToF(Time-of-Flight)方式は、対象に照射された光が対象により反射されてセンサにより検出されるまでの時間を測定することで、物体の奥行(デプス値)を検出する技術である。このように検出された奥行の情報をもとに、物体の3次元モデル等を生成することが可能である。 Conventionally, a technique for detecting a three-dimensional shape of an object has been developed. For example, the ToF (Time-of-Flight) method is a technology that detects the depth (depth value) of an object by measuring the time it takes for the light emitted to the target to be reflected by the target and detected by the sensor. Is. Based on the depth information detected in this way, it is possible to generate a three-dimensional model of an object or the like.
 例えば、非特許文献1には、奥行の情報に基いて対象の3次元モデルを生成する方法について記載されている。この方法では、対象までの奥行をマッピングした距離画像に基いて、空間内の各位置(ボクセル)ごとに対象の表面に対する距離値が算出される。この距離値が0となる位置をつなぐことで3次元モデルが生成される。これにより、例えば奥行の検出精度にむらがある場合であっても、対象の形状を精度よく復元することが可能となる(非特許文献1の3頁-4頁、図2、図5等)。 For example, Non-Patent Document 1 describes a method of generating a target three-dimensional model based on depth information. In this method, the distance value to the surface of the target is calculated for each position (voxel) in the space based on the distance image mapping the depth to the target. A three-dimensional model is generated by connecting the positions where the distance value becomes 0. This makes it possible to accurately restore the shape of the target even if the depth detection accuracy is uneven (pages 3-4 of Non-Patent Document 1, FIGS. 2, 5, etc.). ..
 このように3次元形状を検出する技術は、センサの小型化等に伴いより身近な技術となっており、様々なシーンでの応用が期待される。このため、3次元形状を高精度に検出することが可能な技術が求められている。 The technology for detecting 3D shapes in this way has become more familiar due to the miniaturization of sensors, etc., and is expected to be applied in various scenes. Therefore, there is a demand for a technique capable of detecting a three-dimensional shape with high accuracy.
 以上のような事情に鑑み、本技術の目的は、3次元形状を高精度に検出することが可能な情報処理装置、情報処理方法、及びコンピュータが読み取り可能な記録媒体を提供することにある。 In view of the above circumstances, an object of the present technology is to provide an information processing apparatus capable of detecting a three-dimensional shape with high accuracy, an information processing method, and a recording medium readable by a computer.
 上記目的を達成するため、本技術の一形態に係る情報処理装置は、取得部と、設定部とを具備する。前記取得部は、ToF方式により、照射光が照射された実オブジェクトの対象部位のデプス値を取得する。前記設定部は、前記対象部位で反射された前記照射光の輝度値が大きいほど、前記デプス値に基づく前記対象部位までの距離パラメータに関し、前記対象部位を基準とした重み値の分布の幅を狭く設定する。 In order to achieve the above object, the information processing device according to one form of the present technology includes an acquisition unit and a setting unit. The acquisition unit acquires the depth value of the target portion of the real object irradiated with the irradiation light by the ToF method. The larger the brightness value of the irradiation light reflected by the target portion, the more the setting unit determines the width of the distribution of the weight value with respect to the target portion with respect to the distance parameter to the target portion based on the depth value. Set narrow.
 この情報処理装置では、実オブジェクトに照射光が照射され、対象部位のデプス値がToF方式で取得される。また、デプス値に基づく対象部位までの距離パラメータに関し、対象部位を基準とした重み値が設定される。この重み値の分布の幅は、対象部位で反射された照射光の輝度値が大きいほど、狭く設定される。これにより、例えば対象部位の位置を適正な精度で表すことが可能となり、3次元形状を高精度に検出することが可能となる。 In this information processing device, the actual object is irradiated with irradiation light, and the depth value of the target part is acquired by the ToF method. Further, regarding the distance parameter to the target site based on the depth value, a weight value based on the target site is set. The width of the distribution of the weight values is set narrower as the brightness value of the irradiation light reflected at the target portion is larger. As a result, for example, the position of the target portion can be represented with appropriate accuracy, and the three-dimensional shape can be detected with high accuracy.
 本技術の一形態に係る情報処理方法は、コンピュータシステムにより実行される情報処理方法であって、ToF方式により、照射光が照射された実オブジェクトの対象部位のデプス値を取得することを含む。また、前記情報処理方法は、前記対象部位で反射された前記照射光の輝度値が大きいほど、前記デプス値に基づく前記対象部位までの距離パラメータに関し、前記対象部位を基準とした重み値の分布の幅を狭く設定することを含む。 The information processing method according to one form of the present technology is an information processing method executed by a computer system, and includes acquiring a depth value of a target portion of a real object irradiated with irradiation light by a ToF method. Further, in the information processing method, the larger the luminance value of the irradiation light reflected by the target portion, the more the distribution of the weight value with respect to the target portion with respect to the distance parameter to the target portion based on the depth value. Includes setting the width of.
 本技術の一形態に係るコンピュータが読み取り可能な記録媒体は、コンピュータシステムに以下のステップを実行させるプログラムを記録する。
 ToF方式により、照射光が照射された実オブジェクトの対象部位のデプス値を取得するステップ。
 前記対象部位で反射された前記照射光の輝度値が大きいほど、前記デプス値に基づく前記対象部位までの距離パラメータに関し、前記対象部位を基準とした重み値の分布の幅を狭く設定するステップ。
A computer-readable recording medium according to an embodiment of the present technology records a program that causes a computer system to perform the following steps.
A step of acquiring the depth value of the target part of the real object irradiated with the irradiation light by the ToF method.
The step of setting the width of the distribution of the weight value with respect to the target portion to be narrower with respect to the distance parameter to the target portion based on the depth value, as the brightness value of the irradiation light reflected by the target portion is larger.
本技術の第1の実施形態に係るモバイル端末の外観を模式的に示す図である。It is a figure which shows typically the appearance of the mobile terminal which concerns on 1st Embodiment of this technique. モバイル端末の使用例を示す模式図である。It is a schematic diagram which shows the use example of a mobile terminal. モバイル端末の構成例を示すブロック図である。It is a block diagram which shows the configuration example of a mobile terminal. デプスマップ及び赤外画像について説明するための模式図である。It is a schematic diagram for demonstrating a depth map and an infrared image. ボクセルに格納される距離パラメータについて説明するための模式図である。It is a schematic diagram for demonstrating the distance parameter stored in a voxel. 距離パラメータが干渉するケースについて説明するための模式図である。It is a schematic diagram for demonstrating the case where a distance parameter interferes. モバイル端末の基本的な処理の流れ示すフローチャートである。It is a flowchart which shows the flow of the basic processing of a mobile terminal. キャリブレーション処理の一例を示すフローチャートである。It is a flowchart which shows an example of the calibration process. テスト対象を撮影するシーンを示す模式図である。It is a schematic diagram which shows the scene which takes a picture of the test object. 赤外光の輝度平均とデプス値の標準偏差との関係を示すプロット図である。It is a plot figure which shows the relationship between the luminance average of infrared light and the standard deviation of a depth value. 図10に示すプロット図の拡大図である。It is an enlarged view of the plot diagram shown in FIG. 回帰係数の推定処理について説明するためプロット図である。It is a plot figure for demonstrating the estimation process of a regression coefficient. 距離パラメータFの算出例を示す模式図である。It is a schematic diagram which shows the calculation example of the distance parameter F. ボリュームデータの生成処理の一例を示すフローチャートである。It is a flowchart which shows an example of the volume data generation processing. 距離パラメータに対する重み値の設定例を示す模式図である。It is a schematic diagram which shows the setting example of the weight value with respect to the distance parameter. 3Dモデルの生成例を示す図である。It is a figure which shows the generation example of a 3D model. 法線ベクトルと視線ベクトルとの関係を示す模式図である。It is a schematic diagram which shows the relationship between a normal vector and a line-of-sight vector. 第2の実施形態に係る撮影システムを示す模式図である。It is a schematic diagram which shows the photographing system which concerns on 2nd Embodiment. 第3の実施形態に係る撮影システムを示す模式図である。It is a schematic diagram which shows the photographing system which concerns on 3rd Embodiment.
 以下、本技術に係る実施形態を、図面を参照しながら説明する。 Hereinafter, embodiments relating to this technology will be described with reference to the drawings.
 <第1の実施形態>
 [情報処理装置の構成]
 図1は、本技術の第1の実施形態に係るモバイル端末の外観を模式的に示す図である。モバイル端末100は、ユーザが持ち運び可能な情報端末であり、対象物の3次元モデルを生成する機能を備える。モバイル端末100としては、例えばスマートフォンやタブレット等が用いられる。
 モバイル端末100は、板状のデバイスであり、ディスプレイ10と、ToFカメラ11と、外向きカメラ12とを有する。ToFカメラ11及び外向きカメラ12は、カメラモジュールとして較正され、ディスプレイ10が設けられる面とは反対側の面の一方の端に設けられる。
<First Embodiment>
[Information processing device configuration]
FIG. 1 is a diagram schematically showing the appearance of a mobile terminal according to the first embodiment of the present technology. The mobile terminal 100 is an information terminal that can be carried by a user, and has a function of generating a three-dimensional model of an object. As the mobile terminal 100, for example, a smartphone, a tablet, or the like is used.
The mobile terminal 100 is a plate-shaped device and has a display 10, a ToF camera 11, and an outward-facing camera 12. The ToF camera 11 and the outward-facing camera 12 are calibrated as camera modules and are provided at one end of a surface opposite to the surface on which the display 10 is provided.
 以下では、ディスプレイ10が設けられる面をモバイル端末100の正面13と記載する。またToFカメラ11及び外向きカメラ12が設けられる面(正面13とは反対側の面)を背面14と記載する。またカメラモジュール(ToFカメラ11及び外向きカメラ12)が設けられる側をモバイル端末100の上側と記載し、その反対側を下側と記載する場合がある。図1(a)及び図1(b)は、モバイル端末100を正面13及び背面14から見た斜視図である。 In the following, the surface on which the display 10 is provided will be referred to as the front surface 13 of the mobile terminal 100. Further, the surface on which the ToF camera 11 and the outward-facing camera 12 are provided (the surface opposite to the front surface 13) is referred to as the back surface 14. Further, the side where the camera module (ToF camera 11 and the outward camera 12) is provided may be described as the upper side of the mobile terminal 100, and the opposite side may be described as the lower side. 1 (a) and 1 (b) are perspective views of the mobile terminal 100 as viewed from the front surface 13 and the back surface 14.
 ディスプレイ10は、モバイル端末100で処理された情報を表示する表示素子ある。またディスプレイ10は、タッチパネル機能を備える。例えばユーザがディスプレイ10に触れることで選択操作や移動操作等の様々な操作が受け付けられる。
 ディスプレイ10としては、例えば接触センサを備えた有機ELディスプレイや液晶ディスプレイ(LCD)等が用いられる。
The display 10 is a display element that displays information processed by the mobile terminal 100. The display 10 also has a touch panel function. For example, when the user touches the display 10, various operations such as a selection operation and a movement operation are accepted.
As the display 10, for example, an organic EL display provided with a contact sensor, a liquid crystal display (LCD), or the like is used.
 ToFカメラ11は、ToF方式(Time of Flight方式)のデプスカメラである。
 ここで、ToF方式とは、例えば対象物に照射した光(照射光)がセンサに返ってくるまでの時間差を計測することで対象物までの距離(デプス値)を取得する検出方式である。
 本実施形態では、対象物に照射する照射光として、赤外光(IR:Infrared)が用いられる。具体的には、ToFカメラ11は、赤外光を照射する光源(赤外線LED等)と、対象物で反射した赤外光を検出するイメージセンサ(IRイメージセンサ等)とを用いて構成される。
 ToFカメラ11では、複数の画素ごとに、赤外光の飛行時間(時間差)を示すデータが検出される。この飛行時間を示すデータから画素ごとにデプス値が算出され、デプスマップが生成される。
 また、ToFカメラ11では、複数の画素ごとに、対象物で反射された赤外光の輝度を示すデータが検出される。この輝度を示すデータから対象物の赤外画像が生成される。
 デプスマップ及び赤外画像については、後に詳しく説明する。
The ToF camera 11 is a depth camera of the ToF system (Time of Flight system).
Here, the ToF method is a detection method for acquiring a distance (depth value) to an object by measuring, for example, the time difference until the light (irradiation light) irradiated to the object is returned to the sensor.
In the present embodiment, infrared light (IR: Infrared) is used as the irradiation light to irradiate the object. Specifically, the ToF camera 11 is configured by using a light source (infrared LED or the like) that irradiates infrared light and an image sensor (IR image sensor or the like) that detects infrared light reflected by an object. ..
In the ToF camera 11, data indicating the flight time (time difference) of infrared light is detected for each of a plurality of pixels. A depth value is calculated for each pixel from the data indicating this flight time, and a depth map is generated.
Further, in the ToF camera 11, data indicating the brightness of the infrared light reflected by the object is detected for each of the plurality of pixels. An infrared image of the object is generated from the data showing this brightness.
Depth maps and infrared images will be described in detail later.
 外向きカメラ12は、カラーの動画像及び静止画像を撮影可能な単眼のRGBカメラである。外向きカメラ12により撮影された画像は、例えばリアルタイムでディスプレイ10に出力される。これにより、ユーザは撮影される画像の状態を確認しながら対象物を撮影することが可能となる。
 外向きカメラ12としては、CMOS(Complementary Metal-Oxide Semiconductor)センサやCCD(Charge Coupled Device)センサ等のイメージセンサを備えるデジタルカメラを用いることが可能である。その他、任意の構成が採用されてよい。また、外向きカメラ12として、ステレオカメラ等の複数のカメラが用いられてもよい。
The outward-facing camera 12 is a monocular RGB camera capable of capturing color moving images and still images. The image taken by the outward-facing camera 12 is output to the display 10 in real time, for example. This enables the user to shoot an object while checking the state of the image to be shot.
As the outward-facing camera 12, a digital camera including an image sensor such as a CMOS (Complementary Metal-Oxide Semiconductor) sensor or a CCD (Charge Coupled Device) sensor can be used. In addition, any configuration may be adopted. Further, as the outward-facing camera 12, a plurality of cameras such as a stereo camera may be used.
 図2は、モバイル端末100の使用例を示す模式図である。以下では、センシングの対象となる実オブジェクトを対象物1と記載する。ここでは、対象物1の3Dモデル2を生成する際に、モバイル端末100を用いて対象物1をセンシング(撮影)する方法について説明する。
 対象物1は、例えば人間の顔である。この場合、モバイル端末100では、対象者の顔の3Dモデル2を生成するフェイスモデリングが実行される。図2には、対象物1となる人間を上方から見た図が模式的に図示されている。
 もちろん、撮影対象となる対象物1は人間の顔に限定されず、任意の対象物1に対して本技術は適用可能である。
FIG. 2 is a schematic diagram showing a usage example of the mobile terminal 100. In the following, the real object to be sensed is referred to as an object 1. Here, a method of sensing (shooting) the object 1 using the mobile terminal 100 when generating the 3D model 2 of the object 1 will be described.
The object 1 is, for example, a human face. In this case, the mobile terminal 100 executes face modeling to generate a 3D model 2 of the target person's face. FIG. 2 schematically shows a view of a human being as an object 1 as viewed from above.
Of course, the object 1 to be photographed is not limited to the human face, and the present technology can be applied to any object 1.
 本実施形態では、モバイル端末100を使用するユーザ(撮影者)が、ToFカメラ11を対象物1(対象者の顔)に向けた状態で、対象物1を取り囲むように移動しながら対象物1を撮影することで、対象物1の3Dモデル2を生成するためのデータが取得される。具体的には、撮影位置が移動している間に、ToFカメラ11により、所定のフレームレートで対象物1が撮影される。これにより、対象物1を様々な角度から撮影(センシング)したデプスマップが取得される。 In the present embodiment, a user (photographer) who uses the mobile terminal 100 moves the object 1 so as to surround the object 1 with the ToF camera 11 facing the object 1 (the face of the object). By taking a picture of the object 1, data for generating a 3D model 2 of the object 1 is acquired. Specifically, the object 1 is photographed at a predetermined frame rate by the ToF camera 11 while the photographing position is moving. As a result, a depth map obtained by photographing (sensing) the object 1 from various angles is acquired.
 モバイル端末100では、ユーザが対象物1の周りを移動しながら取得されたデプスマップに基いて、対象物1の3Dモデル2が生成される。より詳しくは、デプスマップごとに対象物1の表面の位置を表すボリュームデータが生成される。そして各ボリュームデータを統合したデータ(統合ボリュームデータ)に基いて3Dモデル2が生成される。この点については、後に詳しく説明する。
 このように本実施形態では、モバイル端末100を手に持ち、対象物1を取り囲むように移動しながらToFカメラ11で撮影することで、対象物1の3次元モデルを生成することが可能である。すなわち、ユーザはモバイル端末100を手に持ち対象物1を様々な角度から撮影することで、対象物1の形状を復元することが可能となる。
In the mobile terminal 100, the 3D model 2 of the object 1 is generated based on the depth map acquired while the user moves around the object 1. More specifically, volume data representing the position of the surface of the object 1 is generated for each depth map. Then, the 3D model 2 is generated based on the data (integrated volume data) in which each volume data is integrated. This point will be described in detail later.
As described above, in the present embodiment, it is possible to generate a three-dimensional model of the object 1 by holding the mobile terminal 100 in the hand and taking a picture with the ToF camera 11 while moving so as to surround the object 1. .. That is, the user can restore the shape of the object 1 by holding the mobile terminal 100 in his hand and photographing the object 1 from various angles.
 図3は、モバイル端末100の構成例を示すブロック図である。モバイル端末100は、さらに、位置姿勢センサ15、マイク16、スピーカ17、通信部18、記憶部19、及びコントローラ30を有する。 FIG. 3 is a block diagram showing a configuration example of the mobile terminal 100. The mobile terminal 100 further includes a position / attitude sensor 15, a microphone 16, a speaker 17, a communication unit 18, a storage unit 19, and a controller 30.
 位置姿勢センサ15は、モバイル端末100の位置及び姿勢を算出するためのデータを検出するセンサである。
 位置姿勢センサ15としては、例えばモバイル端末100の加速度を検出する加速度センサ、モバイル端末100の角速度を検出するジャイロセンサが用いられる。あるいは加速度センサ及びジャイロセンサがモジュール化された慣性計測装置(IMU:Inertial Measurement Unit)が用いられてもよい。
 また、地磁気を検出してモバイル端末100の方位を検出する方位センサや、衛星から発信されるGPS(Global Positioning System)の信号を受信してモバイル端末100の位置情報を出力するGPSセンサ等が搭載されてもよい。
The position / posture sensor 15 is a sensor that detects data for calculating the position and posture of the mobile terminal 100.
As the position / attitude sensor 15, for example, an acceleration sensor that detects the acceleration of the mobile terminal 100 and a gyro sensor that detects the angular velocity of the mobile terminal 100 are used. Alternatively, an inertial measurement unit (IMU) in which an acceleration sensor and a gyro sensor are modularized may be used.
In addition, it is equipped with an orientation sensor that detects the geomagnetism and detects the orientation of the mobile terminal 100, and a GPS sensor that receives GPS (Global Positioning System) signals transmitted from satellites and outputs the position information of the mobile terminal 100. May be done.
 マイク16は、モバイル端末100の周辺の音声を検出する集音素子である。スピーカ17は、モバイル端末100から出力される音声等を再生する再生素子である。図1(a)に示すように、マイク16は、モバイル端末100の正面13の下側に配置される。スピーカ17は、モバイル端末100の正面13の上側に配置される。
 通信部18は、他のデバイスとの間で、ネットワーク通信や近距離無線通信等を実行するためのモジュールである。例えばWiFi等の無線LANモジュールや、Bluetooth(登録商標)等の通信モジュールが設けられる。
 マイク16、スピーカ17、通信部18の具体的な構成は限定されない。
The microphone 16 is a sound collecting element that detects voice around the mobile terminal 100. The speaker 17 is a reproduction element that reproduces voice or the like output from the mobile terminal 100. As shown in FIG. 1A, the microphone 16 is arranged below the front surface 13 of the mobile terminal 100. The speaker 17 is arranged on the upper side of the front surface 13 of the mobile terminal 100.
The communication unit 18 is a module for executing network communication, short-range wireless communication, and the like with other devices. For example, a wireless LAN module such as WiFi and a communication module such as Bluetooth (registered trademark) are provided.
The specific configuration of the microphone 16, the speaker 17, and the communication unit 18 is not limited.
 記憶部19は、不揮発性の記憶デバイスである。記憶部19としては、例えばSSD(Solid State Drive)等の固体素子を用いた記録媒体や、HDD(Hard Disk Drive)等の磁気記録媒体が用いられる。この他、記憶部19として用いられる記録媒体の種類等は限定されず、例えば非一時的にデータを記録する任意の記録媒体が用いられてよい。 The storage unit 19 is a non-volatile storage device. As the storage unit 19, for example, a recording medium using a solid-state element such as an SSD (Solid State Drive) or a magnetic recording medium such as an HDD (Hard Disk Drive) is used. In addition, the type of recording medium used as the storage unit 19 is not limited, and for example, any recording medium for recording data non-temporarily may be used.
 記憶部19には、モバイル端末100の全体の動作を制御するための制御プログラム20が記憶される。制御プログラム20は、本実施形態に係るプログラムであり、記憶部19は、プログラムが記録されているコンピュータが読み取り可能な記録媒体に相当する。
 また、図3に示すように、記憶部19には、較正データ21と、モデルデータ22とが記憶される。較正データ21は、後述するキャリブレーション処理により算出されるデータであり、3Dモデル2を生成する際に参照される。モデルデータ22は、3Dモデル2のデータ(例えばメッシュデータ)である。
 較正データ21及びモデルデータ22については、後に詳しく説明する。
The storage unit 19 stores a control program 20 for controlling the entire operation of the mobile terminal 100. The control program 20 is a program according to the present embodiment, and the storage unit 19 corresponds to a computer-readable recording medium on which the program is recorded.
Further, as shown in FIG. 3, the storage unit 19 stores the calibration data 21 and the model data 22. The calibration data 21 is data calculated by the calibration process described later, and is referred to when the 3D model 2 is generated. The model data 22 is the data of the 3D model 2 (for example, mesh data).
The calibration data 21 and the model data 22 will be described in detail later.
 コントローラ30は、モバイル端末100が有する各ブロックの動作を制御する。コントローラ30は、例えばCPUやメモリ(RAM、ROM)等のコンピュータに必要なハードウェア構成を有する。CPUが記憶部19に記憶されている制御プログラム20をRAMにロードして実行することにより、種々の処理が実行される。本実施形態では、コントローラ30は、情報処理装置に相当する。 The controller 30 controls the operation of each block of the mobile terminal 100. The controller 30 has a hardware configuration necessary for a computer such as a CPU and a memory (RAM, ROM). Various processes are executed by the CPU loading the control program 20 stored in the storage unit 19 into the RAM and executing the control program 20. In this embodiment, the controller 30 corresponds to an information processing device.
 コントローラ30として、例えばFPGA(Field Programmable Gate Array)等のPLD(Programmable Logic Device)、その他ASIC(Application Specific Integrated Circuit)等のデバイスが用いられてもよい。また例えばGPU(Graphics Processing Unit)等のプロセッサがコントローラ30として用いられてもよい。 As the controller 30, for example, a device such as a PLD (Programmable Logic Device) such as an FPGA (Field Programmable Gate Array) or another device such as an ASIC (Application Specific Integrated Circuit) may be used. Further, for example, a processor such as a GPU (Graphics Processing Unit) may be used as the controller 30.
 本実施形態では、コントローラ30のCPUが本実施形態に係るプログラムを実行することで、機能ブロックとして、データ取得部31、較正処理部32、ボリュームデータ生成部33、及びモデルデータ生成部34が実現される。そしてこれらの機能ブロックにより、本実施形態に係る情報処理方法が実行される。なお各機能ブロックを実現するために、IC(集積回路)等の専用のハードウェアが適宜用いられてもよい。 In the present embodiment, the CPU of the controller 30 executes the program according to the present embodiment to realize the data acquisition unit 31, the calibration processing unit 32, the volume data generation unit 33, and the model data generation unit 34 as functional blocks. Will be done. Then, the information processing method according to the present embodiment is executed by these functional blocks. In addition, in order to realize each functional block, dedicated hardware such as an IC (integrated circuit) may be appropriately used.
 データ取得部31は、モバイル端末100に設けられた各センサ(ToFカメラ11等)の出力から各種のデータを生成する。図3に示すように、データ取得部31は、撮影パラメータ取得部38、デプスマップ取得部39、及び赤外画像取得部40を有する。 The data acquisition unit 31 generates various data from the output of each sensor (ToF camera 11 or the like) provided in the mobile terminal 100. As shown in FIG. 3, the data acquisition unit 31 includes a shooting parameter acquisition unit 38, a depth map acquisition unit 39, and an infrared image acquisition unit 40.
 撮影パラメータ取得部38は、ToFカメラ11の撮影パラメータを取得する。ここで撮影パラメータとは、ToFカメラ11により対象物1を撮影した際の内部パラメータ及び外部パラメータである。
 内部パラメータは、レンズの歪、レンズの焦点距離、光学中心等を示す情報である。例えば、ToFカメラ11について事前にキャリブレーションを行うことで算出された内部パラメータが記憶部19に格納され、撮影パラメータ取得部38により適宜参照される。
 外部パラメータは、現在のToFカメラ11の位置及び姿勢を示す情報である。例えば、外向きカメラ12が撮影したモバイル端末100の外部の画像を用いて、自己位置推定と周辺環境マップの作成を同時に行うVisual SLAM(Simultaneous Localization and Mapping)が実行され、ToFカメラ11の位置及び姿勢が推定される。あるいは、位置姿勢センサ15の出力に基いて慣性航法により推定された位置及び姿勢が用いられてもよい。またこれらの方法を組み合わせて外部パラメータが算出されてもよい。
The shooting parameter acquisition unit 38 acquires the shooting parameters of the ToF camera 11. Here, the photographing parameters are internal parameters and external parameters when the object 1 is photographed by the ToF camera 11.
The internal parameters are information indicating the distortion of the lens, the focal length of the lens, the optical center, and the like. For example, the internal parameters calculated by calibrating the ToF camera 11 in advance are stored in the storage unit 19, and are appropriately referred to by the photographing parameter acquisition unit 38.
The external parameters are information indicating the current position and orientation of the ToF camera 11. For example, Visual SLAM (Simultaneous Localization and Mapping), which simultaneously estimates the self-position and creates the surrounding environment map, is executed using the external image of the mobile terminal 100 taken by the outward-facing camera 12, and the position of the ToF camera 11 and The posture is estimated. Alternatively, the position and attitude estimated by inertial navigation based on the output of the position / attitude sensor 15 may be used. Further, external parameters may be calculated by combining these methods.
 デプスマップ取得部39は、ToF方式により、赤外光が照射された対象物1の対象部位のデプス値を取得する。具体的には、ToFカメラ11の出力に基いて、対象部位のデプス値が算出される。
 ここで対象部位とは、奥行(デプス値)を測定する対象となる部位であり、例えば対象物1の表面において赤外光が照射された部位である。例えばToFカメラ11は、対象部位で反射された赤外光を検出することで、対象部位に対する赤外光の往復の飛行時間を測定する。デプスマップ取得部39は、この飛行時間を示すデータと光の速度とを用いて、対象部位のデプス値を算出する。
The depth map acquisition unit 39 acquires the depth value of the target portion of the object 1 irradiated with infrared light by the ToF method. Specifically, the depth value of the target portion is calculated based on the output of the ToF camera 11.
Here, the target portion is a portion to be measured for depth (depth value), and is, for example, a portion on the surface of the object 1 irradiated with infrared light. For example, the ToF camera 11 measures the round-trip flight time of the infrared light with respect to the target portion by detecting the infrared light reflected at the target portion. The depth map acquisition unit 39 calculates the depth value of the target portion by using the data indicating the flight time and the speed of light.
 本実施形態では、デプスマップ取得部39は、デプス値がマッピングされたデプスマップを取得する。具体的には、ToFカメラ11の画素ごとにデプス値が算出され、デプス値を画素値とする距離画像が、デプスマップとして生成される。従って、デプスマップは、画素ごとに異なる対象部位のデプス値が記録されたデータであるといえる。
 デプスマップを生成する処理は、例えば所定のフレームレートで常時実行される。
In the present embodiment, the depth map acquisition unit 39 acquires a depth map to which the depth value is mapped. Specifically, a depth value is calculated for each pixel of the ToF camera 11, and a distance image having the depth value as the pixel value is generated as a depth map. Therefore, it can be said that the depth map is data in which the depth values of the target portions, which are different for each pixel, are recorded.
The process of generating a depth map is always executed, for example, at a predetermined frame rate.
 赤外画像取得部40は、ToFカメラ11の出力に基いて、対象物1の赤外画像(IR画像)を生成する。
 例えばToFカメラ11は、対象部位で反射された赤外光を検出する際に、例えば一定の露光時間で赤外光の輝度(強度)を測定する。この赤外光の輝度は、対象部位で反射される赤外光の明るさを表し、例えば、対象部位における反射特性に応じた値となる。デプスマップ取得部39は、この輝度を示すデータに基いて、対象物1の赤外画像を生成する。すなわち、赤外画像は、画素ごとに異なる対象部位の反射特性が記録されたデータとなる。
 赤外画像を生成する処理は、例えばデプスマップと同時に所定のフレームレートで常時実行される。
The infrared image acquisition unit 40 generates an infrared image (IR image) of the object 1 based on the output of the ToF camera 11.
For example, the ToF camera 11 measures the brightness (intensity) of the infrared light in, for example, a fixed exposure time when detecting the infrared light reflected by the target portion. The brightness of the infrared light represents the brightness of the infrared light reflected at the target portion, and is, for example, a value corresponding to the reflection characteristic at the target portion. The depth map acquisition unit 39 generates an infrared image of the object 1 based on the data indicating the brightness. That is, the infrared image is data in which the reflection characteristics of the target portion, which are different for each pixel, are recorded.
The process of generating an infrared image is always executed at a predetermined frame rate at the same time as the depth map, for example.
 なお、本実施形態では、ToFカメラ11に搭載された検出カメラの出力を用いて、デプスマップ3と赤外画像4とが生成される。従ってデプスマップ3の各画素は、赤外画像4の各画素とそのまま対応している。すなわち、デプスマップ3のある画素が示す対象部位は、赤外画像4において同じ位置にある画素が示す対象部位と同一の部位となる。 In the present embodiment, the depth map 3 and the infrared image 4 are generated by using the output of the detection camera mounted on the ToF camera 11. Therefore, each pixel of the depth map 3 corresponds to each pixel of the infrared image 4 as it is. That is, the target portion indicated by a certain pixel of the depth map 3 is the same portion as the target portion indicated by the pixel at the same position in the infrared image 4.
 図4は、デプスマップ及び赤外画像について説明するための模式図である。図4Aは、対象物1である人物の顔を正面から見た模式図である。図4B及び図4Cは、図4Aに示す対象物1を正面から撮影したデプスマップ3及び赤外画像4を示す模式図である。 FIG. 4 is a schematic diagram for explaining a depth map and an infrared image. FIG. 4A is a schematic view of the face of the person who is the object 1 as viewed from the front. 4B and 4C are schematic views showing a depth map 3 and an infrared image 4 in which the object 1 shown in FIG. 4A is photographed from the front.
 図4Bでは、デプス値がグレースケールの明暗により模式的に示されている。ここでは、デプス値が大きい部位ほど、すなわちToFカメラ11からの距離が遠い部位ほど、明るい色となるようにデプスマップ3が表現されている。
 例えば、対象者の鼻に相当する部位は、デプス値が低くToFカメラ11に近い部位となる。また顔の輪郭に近づくにつれて、各部位の位置はToFカメラ11から離れるため、デプス値は大きくなる。デプスマップ3は、理想的には、対象物1の表面の素材等にかかわらず対象物1の形状を表すデータとなる。
 本実施形態では、上記したデプスマップ取得部39により、このようなデプスマップ3が生成される。
In FIG. 4B, the depth value is schematically shown by the light and shade of the gray scale. Here, the depth map 3 is expressed so that the larger the depth value, that is, the farther the distance from the ToF camera 11, the brighter the color.
For example, the portion corresponding to the nose of the subject has a low depth value and is close to the ToF camera 11. Further, as the contour of the face is approached, the position of each portion moves away from the ToF camera 11, so that the depth value increases. Ideally, the depth map 3 is data representing the shape of the object 1 regardless of the material of the surface of the object 1.
In the present embodiment, such a depth map 3 is generated by the depth map acquisition unit 39 described above.
 図4Cでは、赤外光の輝度値がグレースケールの明暗により模式的に示されている。ここでは、輝度値が大きい部位ほど、すなわち赤外線が強く反射される部位ほど、明るい色となるように赤外画像4が表現されている。
 例えば、対象者の髪の毛がある部位では、赤外光の反射強度が低くなる。逆に、皮膚が露出している部位では、赤外光の反射強度が高くなる。このように、赤外画像4は、髪の毛や皮膚といった表面の素材における反射特性を表すデータとなる。
 また、鼻の側面や顔の輪郭のように、赤外光の入射角度が浅くなる部位(すなわち表面に沿って赤外光が入射するような部位)では反射強度が低くなる。逆に、赤外光の入射角度が深くなる部位(すなわち表面に対して垂直に近い角度で赤外光が入射する部位)では、反射強度が高くなる。このように、赤外画像4には、対象物1の形状に応じた反射強度が記録される。
 本実施形態では、上記した赤外画像取得部40により、このような赤外画像4が生成される。
In FIG. 4C, the luminance value of infrared light is schematically shown by the light and shade of gray scale. Here, the infrared image 4 is expressed so that the portion having a larger luminance value, that is, the portion where infrared rays are strongly reflected, the brighter the color.
For example, the reflection intensity of infrared light is low in a portion where the subject's hair is present. On the contrary, in the part where the skin is exposed, the reflection intensity of infrared light becomes high. As described above, the infrared image 4 is data representing the reflection characteristics of the surface material such as hair and skin.
In addition, the reflection intensity is low in a portion where the incident angle of infrared light is shallow (that is, a portion where infrared light is incident along the surface) such as the side surface of the nose or the contour of the face. On the contrary, the reflection intensity is high in the portion where the incident angle of the infrared light is deep (that is, the portion where the infrared light is incident at an angle close to perpendicular to the surface). In this way, the infrared image 4 records the reflection intensity according to the shape of the object 1.
In the present embodiment, such an infrared image 4 is generated by the infrared image acquisition unit 40 described above.
 図3に戻り、較正処理部32は、キャリブレーション処理を実行して較正データ21を算出する。キャリブレーション処理は、例えば3Dモデル2を生成する前に、事前に行われる処理である。
 キャリブレーション処理では、所定のテスト対象を同じ位置から繰り返し撮影して、複数のデプスマップ3及び複数の赤外画像4を含むテストデータが生成される(図9参照)。このテストデータを用いて、デプス値のノイズレベルと赤外光の輝度値との関係を表すための係数(回帰係数)が較正データ21として算出される。
 較正処理部32は、デプス標準偏差算出部41と、赤外線輝度平均算出部42と、回帰係数算出部43とを有する。
Returning to FIG. 3, the calibration processing unit 32 executes the calibration process and calculates the calibration data 21. The calibration process is, for example, a process performed in advance before generating the 3D model 2.
In the calibration process, a predetermined test target is repeatedly photographed from the same position, and test data including a plurality of depth maps 3 and a plurality of infrared images 4 is generated (see FIG. 9). Using this test data, a coefficient (regression coefficient) for expressing the relationship between the noise level of the depth value and the brightness value of the infrared light is calculated as the calibration data 21.
The calibration processing unit 32 includes a depth standard deviation calculation unit 41, an infrared luminance average calculation unit 42, and a regression coefficient calculation unit 43.
 デプス標準偏差算出部41は、テストデータとして生成された複数のデプスマップ3について、各画素におけるデプス値の標準偏差を算出する。例えば、各デプスマップ3に含まれるi番目の画素(ピクセル)のデプス値が読み込まれ、それらの標準偏差が算出される。この標準偏差の値が、i番目の画素のデプス値のノイズレベルとして用いられる。 The depth standard deviation calculation unit 41 calculates the standard deviation of the depth value in each pixel for a plurality of depth maps 3 generated as test data. For example, the depth values of the i-th pixel included in each depth map 3 are read, and their standard deviations are calculated. The value of this standard deviation is used as the noise level of the depth value of the i-th pixel.
 赤外線輝度平均算出部42は、テストデータとして生成された複数の赤外画像4について、各画素における赤外光の輝度値の平均値を算出する。例えば、各赤外画像4に含まれるi番目の画素(ピクセル)の輝度値が読み込まれ、それらの平均値が算出される。
 この輝度値の平均は、i番目の画素に対応する部位での反射特性を表す値となる。
The infrared brightness average calculation unit 42 calculates the average value of the brightness values of the infrared light in each pixel of the plurality of infrared images 4 generated as test data. For example, the luminance value of the i-th pixel included in each infrared image 4 is read, and the average value thereof is calculated.
The average of these luminance values is a value representing the reflection characteristic at the portion corresponding to the i-th pixel.
 回帰係数算出部43は、画素ごとに算出されたデプス値の標準偏差と赤外光の輝度平均とに基いて、回帰関数を表すための回帰係数を算出する。ここで、回帰関数は、赤外光の輝度とデプス値のノイズレベルとの関係を表す関数である(図12参照)。
 例えばデプス値の標準偏差と赤外光の輝度平均のプロットに対して、所定の回帰関数をフィッティングして、回帰関数を表すための回帰係数が算出される(ロバスト回帰推定)。回帰関数については、図12等を参照して後に詳しく説明する。
 ここで算出された回帰係数が、較正データ21として記憶部19に格納される。
The regression coefficient calculation unit 43 calculates a regression coefficient for expressing a regression function based on the standard deviation of the depth value calculated for each pixel and the brightness average of infrared light. Here, the regression function is a function that expresses the relationship between the brightness of infrared light and the noise level of the depth value (see FIG. 12).
For example, a predetermined regression function is fitted to a plot of the standard deviation of the depth value and the brightness average of infrared light, and a regression coefficient for expressing the regression function is calculated (robust regression estimation). The regression function will be described in detail later with reference to FIG. 12 and the like.
The regression coefficient calculated here is stored in the storage unit 19 as the calibration data 21.
 ボリュームデータ生成部33は、デプスマップ3に基いて、対象物1の形状を表すボリュームデータを生成する。ボリュームデータ生成部33では、例えばデプスマップ取得部39によりデプスマップ3が取得される度に、そのデプスマップ3に対応するボリュームデータが生成される。 The volume data generation unit 33 generates volume data representing the shape of the object 1 based on the depth map 3. In the volume data generation unit 33, for example, every time the depth map acquisition unit 39 acquires the depth map 3, the volume data corresponding to the depth map 3 is generated.
 本実施形態では、ボクセル(Voxel)と呼ばれる体積セルで空間を分割し、各ボクセルに対象物1の形状を表すデータが格納される。ボクセルは、典型的には、空間を格子状に分割する立方体形状のセルである。このような対象物1の形状を表すデータが格納されたボクセルの集合がボリュームデータとなる。
 対象物1の形状を表すデータとしては、デプス値が算出されている対象部位と、各ボクセルとの距離を表す距離パラメータが用いられる。以下では、ボリュームデータについて具体的に説明する。
In the present embodiment, the space is divided by volume cells called voxels, and data representing the shape of the object 1 is stored in each voxel. Voxels are typically cube-shaped cells that divide space into grids. Volume data is a set of voxels in which data representing the shape of the object 1 is stored.
As the data representing the shape of the object 1, a distance parameter representing the distance between the target portion from which the depth value is calculated and each voxel is used. Hereinafter, the volume data will be specifically described.
 図5は、ボクセルに格納される距離パラメータについて説明するための模式図である。図5には、対象物1として、人間の頭部を上から見た図が模式的に図示されている。また対象物1において図中の下側に突出した部位は、対象者の鼻を表している。
 以下では、赤外光5が照射される対象部位を、対象部位Pと記載する。図5には、対象部位Pに照射される赤外光5の照射方向が黒い矢印を用いて模式的に図示されている。
FIG. 5 is a schematic diagram for explaining the distance parameter stored in the voxel. FIG. 5 schematically shows a view of a human head as an object 1 as viewed from above. Further, the portion of the object 1 protruding downward in the figure represents the nose of the subject.
In the following, the target portion irradiated with the infrared light 5 will be referred to as a target portion P. In FIG. 5, the irradiation direction of the infrared light 5 irradiated to the target portion P is schematically illustrated by using a black arrow.
 本実施形態では、ボリュームデータ6として、Volumetric TSDF(Volumetric Truncated Signed Distance Function)と呼ばれるデータ構造が用いられる。Volumetric TSDFとは、形状を復元する対象物1をボクセル7が敷き詰められた空間(ボリューム空間)として表現し、対象物1の表面の値を0として、各ボクセル7には近傍の表面までの距離を符号付(プラス/マイナス)で格納することで空間を表現するデータ構造のことである。
 この符号付で格納される値(TSDF値)が、距離パラメータとなる。
In this embodiment, a data structure called Volumetric TSDF (Volumetric Truncated Signed Distance Function) is used as the volume data 6. Volumetric TSDF expresses an object 1 that restores its shape as a space (volume space) in which voxels 7 are spread, and sets the value of the surface of the object 1 to 0, and each voxel 7 has a distance to a nearby surface. It is a data structure that expresses a space by storing with a sign (plus / minus).
The value (TSDF value) stored with this sign becomes the distance parameter.
 距離パラメータ(TSDF値)の符号は、ボクセル7の位置が対象物1の表面よりも外側である場合マイナスの値が格納され、ボクセル7の位置が内側である場合プラスの値が格納される。なお符号の向きはシステムとして統一されていればよく、例えば上記のように外側をマイナス・内側をプラスというように定義してもよいし、内側をマイナス・外側をプラスというように符号を反対に定義してもよい。
 距離パラメータは、デプスマップ3のデプス値に基いて算出される。以下では、距離パラメータFと記載する場合がある。
The sign of the distance parameter (TSDF value) stores a negative value when the position of the voxel 7 is outside the surface of the object 1, and stores a positive value when the position of the voxel 7 is inside. The direction of the sign may be unified as a system. For example, the outside may be defined as minus and the inside as plus, or the inside may be minus and the outside may be plus. It may be defined.
The distance parameter is calculated based on the depth value of the depth map 3. In the following, it may be described as a distance parameter F.
 例えば、図5には、対象部位Pのデプス値をもとに距離パラメータFが算出されるボクセル7が正方形の領域として模式的に図示されている。例えば対象部位Pを含むボクセル7では、距離パラメータF=0となる。またF=0のボクセル7の図中左隣のボクセル7は、対象物1の外側にあるためF=-dとなり、F=0のボクセル7の図中右隣のボクセル7は、対象物1の内側にあるためF=dとなる。
 ここで「d」は、例えばデプス値の検出方向における各ボクセル7の間隔を表す長さである。デプス値の検出方向とは、ToFカメラ11からみた奥行方向であり、例えばToFカメラ11の光軸に沿った方向である(図13参照)。またdの値は、実際の長さに対応する必要はなく、所定の閾値μで正規化された値である。
 このように、距離パラメータFは、デプス値の検出方向におけるボクセル7と対象部位Pとの距離を、閾値μで正規化した距離となる。
For example, FIG. 5 schematically shows a voxel 7 in which the distance parameter F is calculated based on the depth value of the target portion P as a square region. For example, in the voxel 7 including the target portion P, the distance parameter F = 0. Further, the voxel 7 on the left side of the voxel 7 with F = 0 is outside the object 1, so F = −d, and the voxel 7 on the right side of the voxel 7 with F = 0 is the object 1. Since it is inside, F = d.
Here, "d" is, for example, a length representing the interval between voxels 7 in the detection direction of the depth value. The depth value detection direction is the depth direction seen from the ToF camera 11, for example, the direction along the optical axis of the ToF camera 11 (see FIG. 13). Further, the value of d does not need to correspond to the actual length, and is a value normalized by a predetermined threshold value μ.
As described above, the distance parameter F is a distance obtained by normalizing the distance between the voxel 7 and the target portion P in the detection direction of the depth value with the threshold value μ.
 同様に、F=-dの左側のボクセル7については、対象部位Pに近い方から順番に、F=-2d、-3d、-4dというように距離パラメータFが算出される。また、F=dの右側のボクセル7については、対象部位Pに近い方から順番に、F=2d、3d、4dというように距離パラメータFが算出される。
 なお、ToFカメラ11の撮影位置が変わると、赤外光の照射方向が変化し、各ボクセル7の距離パラメータFを算出する基準となる対象部位Pの位置も変化する。この場合、変化した対象部位Pを基準に距離パラメータFが算出される。従って、撮影位置が変わるたびに、各ボクセル7に格納される距離パラメータFの値は変化することになる。
Similarly, for the voxel 7 on the left side of F = −d, the distance parameter F is calculated in order from the one closest to the target portion P, such as F = -2d, -3d, -4d. Further, for the voxel 7 on the right side of F = d, the distance parameter F is calculated in order from the one closest to the target portion P, such as F = 2d, 3d, and 4d.
When the shooting position of the ToF camera 11 changes, the irradiation direction of the infrared light changes, and the position of the target portion P, which is the reference for calculating the distance parameter F of each voxel 7, also changes. In this case, the distance parameter F is calculated based on the changed target portion P. Therefore, each time the shooting position changes, the value of the distance parameter F stored in each voxel 7 changes.
 また、Volumetric TSDFでは無限遠まで距離値を格納せず、対象物1の表面からある一定の距離μ以上離れたボクセル7についてはTSDF値(距離パラメータ)を格納しないという特徴がある。
 例えば図5では、対象部位Pからの距離が|4d|より大きいボクセル7については、距離パラメータFとしてnull値が設定される。すなわち、μ=|4d|である。
 このように、本実施形態では、デプス値の検出方向におけるボクセル7と対象部位Pとの距離が、閾値μ以下であるボクセル7について距離パラメータFが算出される。
Further, the Volumetric TSDF does not store the distance value up to infinity, and does not store the TSDF value (distance parameter) for the voxel 7 which is separated from the surface of the object 1 by a certain distance μ or more.
For example, in FIG. 5, a null value is set as the distance parameter F for the voxel 7 whose distance from the target portion P is larger than | 4d |. That is, μ = | 4d |.
As described above, in the present embodiment, the distance parameter F is calculated for the voxel 7 in which the distance between the voxel 7 and the target portion P in the detection direction of the depth value is the threshold value μ or less.
 図3に示すように、ボリュームデータ生成部33は、TSDF算出部44と、ノイズレベル算出部45とを有する。
 TSDF算出部44は、デプスマップ取得部39により生成されたデプスマップ3と、撮影パラメータ取得部38により取得された撮影パラメータとに基いて、ボクセル7ごとに上記したTSDF値(距離パラメータF)を算出する。
As shown in FIG. 3, the volume data generation unit 33 has a TSDF calculation unit 44 and a noise level calculation unit 45.
The TSDF calculation unit 44 obtains the above-mentioned TSDF value (distance parameter F) for each voxel 7 based on the depth map 3 generated by the depth map acquisition unit 39 and the shooting parameters acquired by the shooting parameter acquisition unit 38. calculate.
 上記したように、本実施形態では、ToFカメラ11の内部パラメータ(焦点距離・光学中心・歪係数など)と外部パラメータ(カメラの空間的な位置・姿勢)が撮影パラメータとして取得される。これらの撮影パラメータに基いて、各ボクセル7がToFカメラ11の撮影範囲に投影される。すなわち、ToFカメラ11から見た各ボクセル7の座標が算出される。
 そして、各ボクセル7に対応する画素(対象部位P)のデプス値が参照され、各ボクセル7の距離パラメータ(符号付距離値)が算出される(図5参照)。
 このように、本実施形態では、対象物1を含む空間を分割する複数のボクセル7のそれぞれについて、ボクセル7と対象部位Pとの距離を表す距離パラメータF(TSDF値)がデプス値に基づいて算出される。以下では、TSDF値を格納したボリュームデータをTSDFボリュームと記載する場合がある。
As described above, in the present embodiment, the internal parameters (focal length, optical center, distortion coefficient, etc.) and external parameters (spatial position / posture of the camera) of the ToF camera 11 are acquired as shooting parameters. Based on these shooting parameters, each voxel 7 is projected onto the shooting range of the ToF camera 11. That is, the coordinates of each voxel 7 seen from the ToF camera 11 are calculated.
Then, the depth value of the pixel (target portion P) corresponding to each voxel 7 is referred to, and the distance parameter (signed distance value) of each voxel 7 is calculated (see FIG. 5).
As described above, in the present embodiment, for each of the plurality of voxels 7 that divide the space including the object 1, the distance parameter F (TSDF value) representing the distance between the voxels 7 and the target portion P is based on the depth value. It is calculated. In the following, the volume data in which the TSDF value is stored may be referred to as a TSDF volume.
 またTSDF算出部44は、複数のボクセル7のそれぞれに重み値Wを設定する。重み値Wは、デプスマップ3ごとに生成されるボリュームデータ6(ボクセル7)を統合する際に用いられ、データを統合する際に距離パラメータFを反映させる度合いを表している。重み値Wは、距離パラメータFと共にボクセル7ごとに格納される。具体的には、後述するノイズレベル算出部45で算出されるデプス値のノイズレベルに基いて、重み値Wの分布の幅が設定される。この点については、後に詳しく説明する。 Further, the TSDF calculation unit 44 sets a weight value W for each of the plurality of voxels 7. The weight value W is used when integrating the volume data 6 (voxels 7) generated for each depth map 3, and represents the degree to which the distance parameter F is reflected when integrating the data. The weight value W is stored for each voxel 7 together with the distance parameter F. Specifically, the width of the distribution of the weight value W is set based on the noise level of the depth value calculated by the noise level calculation unit 45 described later. This point will be described in detail later.
 ノイズレベル算出部45は、赤外画像取得部40により生成された赤外画像4に基いて、画素ごとにデプス値に関するノイズレベルを算出する。
 具体的には、上記した較正処理部32(回帰係数算出部43)で算出された回帰係数を導入した回帰関数を用いて、赤外光の輝度からデプス値のノイズレベルが推定される。
 ノイズレベルの推定値は、TSDF算出部44に出力され、距離パラメータFの重み値Wを設定する際に参照される。
 本実施形態では、TSDF算出部44及びノイズレベル算出部45が共動することで、設定部が実現される。
The noise level calculation unit 45 calculates the noise level related to the depth value for each pixel based on the infrared image 4 generated by the infrared image acquisition unit 40.
Specifically, the noise level of the depth value is estimated from the brightness of the infrared light by using the regression function introduced with the regression coefficient calculated by the calibration processing unit 32 (regression coefficient calculation unit 43) described above.
The estimated noise level is output to the TSDF calculation unit 44 and is referred to when setting the weight value W of the distance parameter F.
In the present embodiment, the TSDF calculation unit 44 and the noise level calculation unit 45 work together to realize the setting unit.
 モデルデータ生成部34は、ボリュームデータ生成部33によりデプスマップ3ごとに生成されたボリュームデータ6に基いて、対象物1の3Dモデル2を生成する。
 本実施形態では、ボリュームデータ生成部33及びモデルデータ生成部34は、デプスマップに基いて実オブジェクトの3Dモデルを生成するモデル生成部として機能する。
 図3に示すように、モデルデータ生成部34は、ボクセル統合部46と、メッシュ抽出部47とを有する。
The model data generation unit 34 generates the 3D model 2 of the object 1 based on the volume data 6 generated for each depth map 3 by the volume data generation unit 33.
In the present embodiment, the volume data generation unit 33 and the model data generation unit 34 function as a model generation unit that generates a 3D model of a real object based on the depth map.
As shown in FIG. 3, the model data generation unit 34 has a voxel integration unit 46 and a mesh extraction unit 47.
 ボクセル統合部46は、デプスマップ3ごとに生成される複数のボリュームデータ6を統合して、統合ボリュームデータを生成する。
 例えばTSDF算出部44から出力される複数のボリュームデータ6は、複数の視点で同一被写体(対象物1)をToFカメラ11で撮影して生成されたTSDFボリュームである。ボクセル統合部46では、各ボリュームデータ6のボクセル7に対して、それぞれの距離パラメータFを重み値Wをかけて足し合わせることで、複数の視点からの情報を統合した新たなTSDFボリューム(統合ボリュームデータ)が算出される。
 このように、ボクセル統合部46は、距離パラメータFに関する重み値Wに基いて、デプスマップ3ごとに生成されたボクセル7を統合する。
The voxel integration unit 46 integrates a plurality of volume data 6 generated for each depth map 3 to generate integrated volume data.
For example, the plurality of volume data 6 output from the TSDF calculation unit 44 is a TSDF volume generated by photographing the same subject (object 1) from a plurality of viewpoints with the ToF camera 11. In the voxel integration unit 46, a new TSDF volume (integrated volume) that integrates information from a plurality of viewpoints is added by multiplying the voxel 7 of each volume data 6 by the weight value W for each distance parameter F. Data) is calculated.
In this way, the voxel integration unit 46 integrates the voxels 7 generated for each depth map 3 based on the weight value W with respect to the distance parameter F.
 メッシュ抽出部47は、最終的に統合された統合ボリュームデータから、メッシュ形式のモデルデータ22を抽出する。このモデルデータ22が、3Dモデル2のデータとして記憶部19に格納される。
 本実施形態では、メッシュ抽出部47により、距離パラメータに基いて3Dモデル2が生成される。例えば、統合ボリュームデータ(統合されたTSDFボリューム)において、距離パラメータFの値が0となる部位が、対象物1の表面の位置であると捉えることができる。このため、例えばMarching Cube法などを利用して、距離パラメータF=0となる等値面(isosurface)が抽出される。この等値面のデータがメッシュ形式のモデルデータ22として出力される。
The mesh extraction unit 47 extracts the model data 22 in the mesh format from the finally integrated integrated volume data. This model data 22 is stored in the storage unit 19 as data of the 3D model 2.
In this embodiment, the mesh extraction unit 47 generates the 3D model 2 based on the distance parameter. For example, in the integrated volume data (integrated TSDF volume), the portion where the value of the distance parameter F becomes 0 can be regarded as the position of the surface of the object 1. Therefore, for example, an isosurface in which the distance parameter F = 0 is extracted by using the Marching Cube method or the like. The isosurface data is output as model data 22 in mesh format.
 このように、Volumetric TSDFを用いることで、ある程度不正確なデプス値が入力された場合でも、他の視点の結果と統合することで正確な3次元形状を復元することが可能となる。これにより、ノイズ耐性が向上するとともに、高精度な3Dモデル2を生成することが可能となる。 In this way, by using Volumetric TSDF, even if a depth value that is inaccurate to some extent is input, it is possible to restore an accurate 3D shape by integrating it with the results of other viewpoints. This improves noise immunity and makes it possible to generate a highly accurate 3D model 2.
 Volumetric TSDFを利用して3Dモデル2を生成する手法は、Visual SLAMの一種としてとらえることができる。例えば、Visual SLAMでは、3次元空間中を自由に移動するカメラの映像から、各フレームにおけるカメラの位置・姿勢を推定(Localization)しつつ、3次元空間をマッピングしたデータが逐次的に構築(Mapping)される。
 本実施形態では、3次元空間の表現としてVolumetric TSDFのデータ構造が用いられる。このアプローチでは各フレームのデプスマップ3が異なる視点でのデプスマップ3に該当するため、対象物1の周囲を自由に動かすことで大量の視点データを取得することが可能となり、最終的に高い精度で形状を復元することが可能となる。
The method of generating 3D model 2 using Volumetric TSDF can be regarded as a kind of Visual SLAM. For example, in Visual SLAM, data mapping 3D space is sequentially constructed (Mapping) while estimating the position and orientation of the camera in each frame (Localization) from the image of the camera freely moving in 3D space. ).
In this embodiment, the data structure of Volumetric TSDF is used as a representation of the three-dimensional space. In this approach, since the depth map 3 of each frame corresponds to the depth map 3 from different viewpoints, it is possible to acquire a large amount of viewpoint data by freely moving around the object 1, and finally high accuracy. It is possible to restore the shape with.
 このように、Volumetric TSDFによる空間表現を採用し、複数視点の結果を統合することで、例えばノイズによりデプス値が揺れるようなセンサが用いられる場合でも、精度を低下させることなく3Dモデル2を生成可能である。
 また、上記したように、Volumetric TSDFでは、距離パラメータF(符号付距離値)を格納する範囲が一定の閾値μで打ち切られる。この打ち切る長さμが長いほど、デプス値のノイズ(デプス値の揺らぎ)に対する耐性が強くなる。
 一方で、閾値μが長い場合には、距離パラメータFが干渉してしまうようなケースが考えられる。以下では、距離パラメータFが干渉するケースについて説明する。
In this way, by adopting the spatial representation by Volumetric TSDF and integrating the results of multiple viewpoints, 3D model 2 is generated without degrading the accuracy even when a sensor whose depth value fluctuates due to noise is used, for example. It is possible.
Further, as described above, in the Volumetric TSDF, the range in which the distance parameter F (signed distance value) is stored is cut off at a constant threshold value μ. The longer the cutoff length μ, the stronger the resistance to noise (depth value fluctuation) of the depth value.
On the other hand, when the threshold value μ is long, there may be a case where the distance parameter F interferes. In the following, a case where the distance parameter F interferes will be described.
 図6は、距離パラメータが干渉するケースについて説明するための模式図である。図6Aの左側の図では、対象物1として対象者の頭部が撮影される。ここでは、対象者が図中の下側を向いており、対象者の右側(図中の左側)からToFカメラ11による撮影が行われるものとする。 FIG. 6 is a schematic diagram for explaining a case where distance parameters interfere with each other. In the figure on the left side of FIG. 6A, the head of the subject is photographed as the object 1. Here, it is assumed that the subject is facing the lower side in the figure and the image is taken by the ToF camera 11 from the right side (left side in the figure) of the subject.
 この時、対象者の鼻の右側面に存在する対象部位Pに対して、対象者の右側から赤外光5が照射されたとする。また、閾値μは、鼻の横幅よりも十分に長く設定されているものとする。この場合、対象者の鼻の左側面よりも外側にあるボクセル7に対して、右側面の対象部位Pを基準とする距離パラメータFが格納される。この値は、対象者の鼻の左側面を基準としたものではない。
 この結果、図6Aの右側の図に示すように、生成される3Dモデル2は、対象者の鼻の右側面が実際よりも外側に張り出した形状となる可能性がある。
At this time, it is assumed that the target portion P existing on the right side surface of the subject's nose is irradiated with infrared light 5 from the right side of the subject. Further, it is assumed that the threshold value μ is set sufficiently longer than the width of the nose. In this case, the distance parameter F with respect to the target portion P on the right side surface is stored for the voxel 7 outside the left side surface of the nose of the subject. This value is not relative to the left side of the subject's nose.
As a result, as shown in the figure on the right side of FIG. 6A, the generated 3D model 2 may have a shape in which the right side surface of the subject's nose protrudes outward from the actual shape.
 このように、観測されている面の裏側にも面が存在していた場合、閾値μが長いことで、表側(観測側)の面に対応する距離パラメータFが裏面へ干渉する場合がある。Volumetric TSDFでは、例えば、ToFカメラ11のセンサノイズが正規分布や一様分布のような分布で発生していることを暗に仮定している。このため、裏面からの干渉はこのような仮定から外れるため正確な形状復元ができなくなる。この結果、図6Bに示すように、3Dモデル2の形状が不正確になることが考えられる。 In this way, if the surface is also present on the back side of the observed surface, the distance parameter F corresponding to the surface on the front side (observation side) may interfere with the back surface due to the long threshold value μ. In Volumetric TSDF, for example, it is implicitly assumed that the sensor noise of the ToF camera 11 is generated in a distribution such as a normal distribution or a uniform distribution. Therefore, the interference from the back surface deviates from such an assumption, and accurate shape restoration cannot be performed. As a result, as shown in FIG. 6B, it is conceivable that the shape of the 3D model 2 becomes inaccurate.
 つまり、デプス値のノイズへの耐性力と、復元できる形状の高精細さはトレードオフの関係となっており、閾値μを大きくしてノイズへの耐性力を優先させる場合、細かな形状を復元することが難しくなることがあり得る。
 例えば、ToFカメラ11で得られるデプスマップ3では、カメラから対象物1までの距離値が画素ごとに取得可能である。一方で、各画素のデプス値の不確実性(すなわちデプス値のノイズレベル)は均一ではなく、例えば撮影対象の素材の反射特性によって異なることが考えられる。このため、ToFカメラ11におけるノイズレベルを、全画素にわたって一意に定めることは難しい。
 仮にノイズレベルを一意に定めてVolumetric TSDFによる3次元形状の再構成を試みたとしても、対象物1が部位ごとに異なる反射特性を持っており、デプス値のノイズレベルが画素ごとに著しく異なっているような場合には、正確な形状復元ができないといった可能性がある。
In other words, there is a trade-off between the resistance to noise of the depth value and the high definition of the shape that can be restored, and when the threshold μ is increased and the resistance to noise is prioritized, the fine shape is restored. It can be difficult to do.
For example, in the depth map 3 obtained by the ToF camera 11, the distance value from the camera to the object 1 can be acquired for each pixel. On the other hand, the uncertainty of the depth value of each pixel (that is, the noise level of the depth value) is not uniform, and may differ depending on, for example, the reflection characteristics of the material to be photographed. Therefore, it is difficult to uniquely determine the noise level in the ToF camera 11 over all the pixels.
Even if the noise level is uniquely determined and the reconstruction of the three-dimensional shape by Volumetric TSDF is attempted, the object 1 has different reflection characteristics for each part, and the noise level of the depth value is significantly different for each pixel. In such cases, there is a possibility that accurate shape restoration cannot be performed.
 そこで、本実施形態では、TSDF算出部44により、対象部位Pで反射された赤外光5の輝度値が大きいほど、デプス値に基づく対象部位Pまでの距離パラメータFに関し、対象部位Pを基準とした重み値の分布の幅が狭く設定される。
 重み値の分布の幅とは、例えば重み値Wのピーク値の半分の値等である。このように、TSDF算出部44では、距離パラメータFに関する重み値Wの分布の幅が設定される。従って、赤外光5を良く反射してデプス値を精度よく検出可能な部位、すなわちデプス値のノイズレベルが低い部位については、距離パラメータFを有効にする範囲(重み値が高い範囲)が狭く設定されるともいえる。
Therefore, in the present embodiment, the larger the luminance value of the infrared light 5 reflected by the target portion P by the TSDF calculation unit 44, the more the target portion P is referred to with respect to the distance parameter F to the target portion P based on the depth value. The width of the distribution of the weight values is set narrow.
The width of the distribution of the weight values is, for example, a value that is half of the peak value of the weight value W. In this way, the TSDF calculation unit 44 sets the width of the distribution of the weight value W with respect to the distance parameter F. Therefore, the range in which the distance parameter F is valid (the range in which the weight value is high) is narrow for the part where the infrared light 5 is reflected well and the depth value can be detected accurately, that is, the part where the noise level of the depth value is low. It can be said that it is set.
 このように、本実施形態では、対象物1の反射特性に起因するデプス値のノイズレベルを考慮してVolumetric TSDFの各ボクセル7に対して適応的な重み値が与えられる。また、デプスマップ3の各画素のノイズレベルの算出には、デプスマップ3と同時に取得可能な赤外画像4が用いられる。これにより、対象物1に対する高精度な3次元形状復元を容易に実現することが可能となる。 As described above, in the present embodiment, an adaptive weight value is given to each voxel 7 of the Volumetric TSDF in consideration of the noise level of the depth value caused by the reflection characteristic of the object 1. Further, an infrared image 4 that can be acquired at the same time as the depth map 3 is used for calculating the noise level of each pixel of the depth map 3. This makes it possible to easily realize highly accurate three-dimensional shape restoration for the object 1.
 [モバイル端末100の基本的な動作]
 図7は、モバイル端末100の基本的な処理の流れ示すフローチャートである。
 まず初めにキャリブレーション処理が実行される(ステップ101)。キャリブレーション処理では、デプスマップ3の画素ごとにデプス値のノイズレベルを算出するための係数(較正データ)が算出される。
 キャリブレーション処理は、例えばモバイル端末100の工場出荷時に実行される。これにより、適正な環境でキャリブレーション処理を実行することが可能となる。あるいは、モバイル端末100の使用者が、3Dモデル2を生成する際に、キャリブレーション処理が実行されてもよい。
[Basic operation of mobile terminal 100]
FIG. 7 is a flowchart showing the flow of basic processing of the mobile terminal 100.
First, the calibration process is executed (step 101). In the calibration process, a coefficient (calibration data) for calculating the noise level of the depth value is calculated for each pixel of the depth map 3.
The calibration process is executed, for example, at the time of factory shipment of the mobile terminal 100. This makes it possible to execute the calibration process in an appropriate environment. Alternatively, the calibration process may be executed when the user of the mobile terminal 100 generates the 3D model 2.
 次に、Volumetric TSDFのボリュームデータ6を用いた3次元形状復元処理が実行される(ステップ201)。3次元形状復元処理は、対象物1の3次元形状を3Dモデル2として再構成する処理である。
 ここでは、対象物1がToFカメラ11で撮影され、Volumetric TSDFのボリュームデータ6が生成される。この時、先のキャリブレーション処理で取得した係数を利用して、デプスマップ3のピクセル毎にノイズレベルが算出される。このノイズレベルを使って、TSDF値(距離パラメータF)とともに、その重み値Wがボクセル7ごとに設定され、ボリュームデータ6が生成される。このようにノイズレベルに応じて設定された重み値Wを利用して、複数視点のボリュームデータ6が統合される。これにより、高精度な3次元形状復元を実現することが可能となる。
Next, a three-dimensional shape restoration process using the volume data 6 of the Volumetric TSDF is executed (step 201). The three-dimensional shape restoration process is a process of reconstructing the three-dimensional shape of the object 1 as a 3D model 2.
Here, the object 1 is photographed by the ToF camera 11, and the volume data 6 of the Volumetric TSDF is generated. At this time, the noise level is calculated for each pixel of the depth map 3 by using the coefficient acquired in the previous calibration process. Using this noise level, the weight value W is set for each voxel 7 together with the TSDF value (distance parameter F), and the volume data 6 is generated. The volume data 6 of a plurality of viewpoints is integrated by using the weight value W set according to the noise level in this way. This makes it possible to realize highly accurate three-dimensional shape restoration.
 [キャリブレーション処理]
 図8は、キャリブレーション処理の一例を示すフローチャートである。
 キャリブレーション処理では、上記したように、対象物1を観測した際のデプス値のノイズレベルを推定するための回帰係数を取得することが目的となる。
 このキャリブレーション処理は、毎回実施する必要はなく、一度算出された回帰係数(較正データ21)を継続して利用することが可能である。以下では、図8を参照して、キャリブレーション処理の詳細について説明する。
[Calibration process]
FIG. 8 is a flowchart showing an example of the calibration process.
As described above, the purpose of the calibration process is to obtain a regression coefficient for estimating the noise level of the depth value when the object 1 is observed.
This calibration process does not have to be performed every time, and the regression coefficient (calibration data 21) once calculated can be continuously used. Hereinafter, the details of the calibration process will be described with reference to FIG.
 まず、テスト対象に向けてToFカメラ11がセッティングされる(ステップ201)。テスト対象とは、例えばキャリブレーションを行うための対象物である。ここでは、例えばテスト対象にToFカメラ11を向けてモバイル端末100を配置する旨の指示が、ディスプレイ10等に出力される。従って、キャリブレーションを行う作業者によってToFカメラ11(モバイル端末100)がセッティングされる。
 本実施形態では、テスト対象は、テストオブジェクトに相当する。
First, the ToF camera 11 is set toward the test target (step 201). The test target is, for example, an object for performing calibration. Here, for example, an instruction to point the ToF camera 11 at the test target and arrange the mobile terminal 100 is output to the display 10 or the like. Therefore, the ToF camera 11 (mobile terminal 100) is set by the calibrating worker.
In this embodiment, the test target corresponds to a test object.
 図9は、テスト対象を撮影するシーンを示す模式図である。図9には、テスト対象50として、3種類の円筒オブジェクトが図示されている。もちろん、テスト対象50はこのような例に限定されず、任意に設定可能である。 FIG. 9 is a schematic diagram showing a scene in which the test target is photographed. In FIG. 9, three types of cylindrical objects are illustrated as test targets 50. Of course, the test target 50 is not limited to such an example and can be set arbitrarily.
 上記したように、ToFカメラ11は、照射した赤外光がセンサに返ってくるまでの時間差を計測することで対象物1までの距離を取得するセンサである。このような方式であるため、ToFカメラ11に返る光の光量が少ないほどS/N比が下がり、結果としてデプス値の精度が下がる特性がある。照射した光がどの程度反射してセンサに返るかは反射する対象物1の素材に依存する。 As described above, the ToF camera 11 is a sensor that acquires the distance to the object 1 by measuring the time difference until the irradiated infrared light returns to the sensor. Since this method is used, the smaller the amount of light returned to the ToF camera 11, the lower the S / N ratio, and as a result, the accuracy of the depth value is lowered. How much the irradiated light is reflected and returned to the sensor depends on the material of the reflected object 1.
 本実施形態に係るToFカメラ11では、照射する光として赤外光を用い、受光部には赤外光に感度を持つIRイメージセンサ等が用いられる。このため、デプスマップ3と同時に赤外画像4を取得可能である。この場合、各画素のデプス値のノイズレベルの算出には、デプスマップと同時に取得された赤外画像4の輝度値を利用することができる。つまり赤外画像4の輝度値を基に、デプスマップ3の各画素のノイズレベルを算出することが可能である。 In the ToF camera 11 according to the present embodiment, infrared light is used as the light to be irradiated, and an IR image sensor or the like having sensitivity to infrared light is used for the light receiving portion. Therefore, the infrared image 4 can be acquired at the same time as the depth map 3. In this case, the luminance value of the infrared image 4 acquired at the same time as the depth map can be used to calculate the noise level of the depth value of each pixel. That is, it is possible to calculate the noise level of each pixel of the depth map 3 based on the luminance value of the infrared image 4.
 キャリブレーション処理では、ToFカメラ11を用いた場合の赤外光の輝度値とデプス値のノイズレベルとの関係を調べるために、テスト対象50を撮影した赤外画像4とデプスマップ3とが用いられる。 In the calibration process, the infrared image 4 and the depth map 3 taken by the test target 50 are used in order to investigate the relationship between the brightness value of the infrared light and the noise level of the depth value when the ToF camera 11 is used. Be done.
 テスト対象 は、例えば時間とともに位置、姿勢、形状等が変化しないオブジェクトであることが望ましい。またテスト対象50として、特定の物体が用いられなくてもよく、例えば移動体のいないシーンが撮影されればよい。これにより、移動体等の影響が除外され、回帰係数を適正に算出することが可能となる。
 またテスト対象50を撮影した赤外画像4において、様々な輝度値が含まれることが望ましい。このため、例えば図9に円筒オブジェクトとして、表面の素材がことなる物体が用いられる。これにより、輝度値の片寄りが低減し、回帰係数を適正に算出することが可能となる。
It is desirable that the test target is, for example, an object whose position, posture, shape, etc. do not change over time. Further, a specific object may not be used as the test target 50, for example, a scene without a moving object may be photographed. As a result, the influence of moving objects and the like is excluded, and the regression coefficient can be calculated appropriately.
Further, it is desirable that the infrared image 4 obtained by photographing the test target 50 includes various luminance values. Therefore, for example, as a cylindrical object in FIG. 9, an object having a different surface material is used. As a result, the deviation of the luminance value is reduced, and the regression coefficient can be calculated appropriately.
 図8に戻り、ToFカメラ11がセッティングされると、テスト対象 が撮影され、複数のデプスマップ3及び赤外画像4が取得される(ステップ202)。ここでは、ToFカメラ11により、Nフレーム分の撮影が実行される。そして、デプスマップ取得部39及び赤外画像取得部40により、各フレームごとにデプスマップ3及び赤外画像4が生成される。ここでN=数十フレーム~数百フレームであり、必要な精度が得られるように適宜設定される。
 このように、キャリブレーション処理では、テスト対象50を同一位置から計測した複数のデプスマップ3と、複数のデプスマップ3に対応する複数の赤外画像4とが取得される。
Returning to FIG. 8, when the ToF camera 11 is set, the test target is photographed and a plurality of depth maps 3 and infrared images 4 are acquired (step 202). Here, the ToF camera 11 executes shooting for N frames. Then, the depth map acquisition unit 39 and the infrared image acquisition unit 40 generate a depth map 3 and an infrared image 4 for each frame. Here, N = several tens to several hundreds of frames, and is appropriately set so that the required accuracy can be obtained.
As described above, in the calibration process, a plurality of depth maps 3 in which the test target 50 is measured from the same position and a plurality of infrared images 4 corresponding to the plurality of depth maps 3 are acquired.
 所定数のデプスマップ3及び赤外画像4が取得されると、デプス標準偏差算出部により、各画素のデプス値の標準偏差σが算出される(ステップ203)。例えば、Nフレーム分のデプスマップ3から画素ごとにN個のデプス値が読み込まれ、その標準偏差σが算出される。デプス値の標準偏差σは、その画素に対応する対象部位Pのデプス値についてのノイズレベルを表す。このように、デプス標準偏差算出部は、複数のデプスマップ3の画素ごとにデプス値のノイズレベルとしてデプス値の標準偏差を算出する。 When a predetermined number of depth maps 3 and infrared images 4 are acquired, the depth standard deviation calculation unit calculates the standard deviation σ of the depth value of each pixel (step 203). For example, N depth values are read for each pixel from the depth map 3 for N frames, and the standard deviation σ is calculated. The standard deviation σ of the depth value represents the noise level for the depth value of the target portion P corresponding to the pixel. In this way, the depth standard deviation calculation unit calculates the standard deviation of the depth value as the noise level of the depth value for each pixel of the plurality of depth maps 3.
 次に、赤外線輝度平均算出部42により、各画素の赤外光の輝度平均Iが算出される(ステップ204)。例えば、Nフレーム分の赤外画像4から画素ごとにN個の輝度値が読み込まれ、その輝度平均Iが算出される。赤外光の輝度平均Iは、その画素に対応する対象部位Pで反射される赤外光の平均的な明るさを表し、対象部位Pの反射特性に応じた値となる。このように、赤外線輝度平均算出部42は、複数の赤外画像4の画素ごとに輝度値の平均値を算出する。 Next, the infrared luminance average calculation unit 42 calculates the luminance average I of the infrared light of each pixel (step 204). For example, N luminance values are read for each pixel from the infrared image 4 for N frames, and the luminance average I is calculated. The brightness average I of the infrared light represents the average brightness of the infrared light reflected by the target portion P corresponding to the pixel, and is a value corresponding to the reflection characteristic of the target portion P. In this way, the infrared luminance average calculation unit 42 calculates the average luminance value for each pixel of the plurality of infrared images 4.
 図10は、赤外光の輝度平均とデプス値の標準偏差との関係を示すプロット図である。
 図10の横軸は、赤外光の輝度平均Iであり、縦軸は、デプス値の標準偏差σである。図10では、所定のテスト対象50を600フレーム分撮影して、各画素におけるデプス値の標準偏差Iと赤外光の輝度平均I(IR輝度値の平均値)が算出されている。
FIG. 10 is a plot diagram showing the relationship between the brightness average of infrared light and the standard deviation of the depth value.
The horizontal axis of FIG. 10 is the brightness average I of infrared light, and the vertical axis is the standard deviation σ of the depth value. In FIG. 10, a predetermined test target 50 is photographed for 600 frames, and the standard deviation I of the depth value in each pixel and the brightness average I of the infrared light (the average value of the IR brightness values) are calculated.
 例えば赤外光の輝度平均Iが大きい場合には、デプス値の標準偏差σは小さくなる。すなわち、反射する赤外光が明るいほど、デプス値の揺らぎ(ノイズレベル)は低くなる傾向にある。逆に、赤外光の輝度平均Iが十分に小さい場合には、デプス値の標準偏差σが急激に高くなり、デプス値の揺らぎ(ノイズレベル)が高くなる傾向がある。 For example, when the brightness average I of infrared light is large, the standard deviation σ of the depth value becomes small. That is, the brighter the reflected infrared light, the lower the fluctuation (noise level) of the depth value tends to be. On the contrary, when the brightness average I of the infrared light is sufficiently small, the standard deviation σ of the depth value tends to increase sharply, and the fluctuation of the depth value (noise level) tends to increase.
 図11は、図10に示すプロット図の拡大図である。図11には、図10において四角で囲まれた領域を拡大したプロット図が示されている。
 図11のプロットからも判別できるように、デプス値の標準偏差σ(つまりノイズレベル)は赤外光の輝度平均Iに反比例するような分布を示す。この関係から、デプス値の標準偏差σが、赤外光の輝度平均Iの逆数(1/I)に比例するとして、近似モデル化すると、σとIの関係は以下の式のように表される。
FIG. 11 is an enlarged view of the plot diagram shown in FIG. FIG. 11 shows an enlarged plot of the area surrounded by the square in FIG.
As can be discriminated from the plot of FIG. 11, the standard deviation σ (that is, the noise level) of the depth value shows a distribution that is inversely proportional to the luminance average I of the infrared light. From this relationship, assuming that the standard deviation σ of the depth value is proportional to the reciprocal of the brightness average I of infrared light (1 / I), the relationship between σ and I is expressed by the following equation when approximate modeling is performed. The standard deviation.
Figure JPOXMLDOC01-appb-M000003
Figure JPOXMLDOC01-appb-M000003
 ここで、係数Aは、(1/I)についての比例係数であり、係数Bは、切片を表す係数である。本実施形態では、係数Aは、第1の係数(A)に相当し、係数Bは、第2の係数(B)に相当する。
 (1)式は、赤外光の輝度(I)とデプス値のノイズレベル(σ)との関係を表す回帰関数であり、係数A及び係数Bは、回帰関数を表すための回帰係数となる。また(1)式は、例えばX=1/Iとして、Y=σとすると、Y=AX+Bとなり、線形な関係を示す関数となる。
Here, the coefficient A is a proportional coefficient with respect to (1 / I), and the coefficient B is a coefficient representing an intercept. In the present embodiment, the coefficient A corresponds to the first coefficient (A), and the coefficient B corresponds to the second coefficient (B).
Equation (1) is a regression function representing the relationship between the brightness (I) of infrared light and the noise level (σ) of the depth value, and the coefficients A and B are regression coefficients for expressing the regression function. .. Further, in the equation (1), for example, when X = 1 / I and Y = σ, Y = AX + B, which is a function showing a linear relationship.
 図8に戻り、赤外光の輝度平均Iが算出されると、回帰係数算出部43により、(1)式を満たす係数A及び係数Bが算出される(ステップ205)。ここでは、I及びσの分布データにロバスト回帰推定を行うことで、各係数A及びBが推定される。
 このように較正処理部32では、複数のデプスマップ3と複数の赤外画像4とに基いて、係数A及び係数Bが算出される。
Returning to FIG. 8, when the brightness average I of the infrared light is calculated, the regression coefficient calculation unit 43 calculates the coefficient A and the coefficient B satisfying the equation (1) (step 205). Here, the coefficients A and B are estimated by performing robust regression estimation on the distribution data of I and σ.
In this way, the calibration processing unit 32 calculates the coefficient A and the coefficient B based on the plurality of depth maps 3 and the plurality of infrared images 4.
 図12は、回帰係数の推定処理について説明するためプロット図である。図12には、図10及び図11に示したプロット図について、横軸を赤外光の輝度平均Iの逆数(X=1/I)とし、縦軸をデプス値の標準偏差(Y=σ)として、再プロットしたプロット図が示されている。
 ここで、(1)式に基いてロバスト回帰推定を行うと、図12に示すような回帰関数として直線51を引くことができる。この直線51の傾きが係数Aであり、切片が係数Bとなる。このように、本実施形態では、赤外光の輝度値の平均値Iとデプス値の標準偏差σとの分布に(1)式をフィッティングすることで、係数A及び係数Bが算出される。
FIG. 12 is a plot diagram for explaining the regression coefficient estimation process. In FIG. 12, for the plots shown in FIGS. 10 and 11, the horizontal axis is the reciprocal of the infrared brightness average I (X = 1 / I), and the vertical axis is the standard deviation of the depth value (Y = σ). ), The re-plot plot is shown.
Here, if robust regression estimation is performed based on the equation (1), a straight line 51 can be drawn as a regression function as shown in FIG. The slope of the straight line 51 is the coefficient A, and the intercept is the coefficient B. As described above, in the present embodiment, the coefficient A and the coefficient B are calculated by fitting the equation (1) to the distribution of the average value I of the brightness value of the infrared light and the standard deviation σ of the depth value.
 以上の内容をキャリブレーション処理として実行することで係数A及び係数Bを算出することが可能となる。係数A及び係数Bは、較正データ21として、記憶部19に格納される。
 例えば、ToFカメラ11による撮影が行われる任意のシーンにおいて、そのデプスマップ3の特定の画素のノイズレベルが知りたい場合には、係数A及び係数Bと、その画素における赤外光の輝度値Iを用いて(1)式を使うことで、ノイズレベル(σ)を推定することが可能となる。
By executing the above contents as a calibration process, the coefficient A and the coefficient B can be calculated. The coefficient A and the coefficient B are stored in the storage unit 19 as calibration data 21.
For example, in an arbitrary scene in which a ToF camera 11 is used, when it is desired to know the noise level of a specific pixel of the depth map 3, the coefficient A and the coefficient B and the luminance value I of the infrared light in the pixel are desired. By using the equation (1) using the above, it is possible to estimate the noise level (σ).
 [3次元形状復元処理]
 3次元形状復元処理では、視点を変えて対象物1を撮影した複数のデプスマップ3について、ボリュームデータ6がそれぞれ生成される。そして複数のボリュームデータ6を統合した統合ボリュームデータから、対象物1の形状を復元した3Dモデル2が生成される。
 まず、ボリュームデータ6となる距離パラメータFを算出する方法について説明する。
[3D shape restoration processing]
In the three-dimensional shape restoration process, volume data 6 is generated for each of a plurality of depth maps 3 in which the object 1 is photographed from different viewpoints. Then, a 3D model 2 in which the shape of the object 1 is restored is generated from the integrated volume data in which a plurality of volume data 6 are integrated.
First, a method of calculating the distance parameter F that becomes the volume data 6 will be described.
 [ボリュームデータの生成処理]
 図13は、距離パラメータFの算出例を示す模式図である。図13には、対象物1と、対象物1を撮影するToFカメラ11(モバイル端末100)との配置関係が模式的に図示されている。また図13には、世界座標52とカメラ座標53とが模式的に図示されている。ここでは、カメラ座標53のZ軸の方向が、ToFカメラ11の光軸に沿った方向となり、デプス値が検出される検出方向(奥行方向)となる。
[Volume data generation process]
FIG. 13 is a schematic diagram showing a calculation example of the distance parameter F. FIG. 13 schematically shows the arrangement relationship between the object 1 and the ToF camera 11 (mobile terminal 100) that captures the object 1. Further, in FIG. 13, the world coordinates 52 and the camera coordinates 53 are schematically illustrated. Here, the direction of the Z axis of the camera coordinates 53 is the direction along the optical axis of the ToF camera 11, and is the detection direction (depth direction) in which the depth value is detected.
 Volumetric TSDFでは、各ボクセル7に対して、ToFカメラ11によりデプス値が検出された対象部位Pまでの距離が、プラス・マイナスの符号付データ(距離パラメータF)として格納される。座標vにあるボクセル7に格納される距離パラメータF(v)は、以下に示す(2)式で定義される。 In the Volumetric TSDF, the distance to the target site P where the depth value is detected by the ToF camera 11 is stored as plus / minus signed data (distance parameter F) for each voxel 7. The distance parameter F (v) stored in the voxel 7 at the coordinate v is defined by the following equation (2).
Figure JPOXMLDOC01-appb-M000004
Figure JPOXMLDOC01-appb-M000004
 ここで、D(v)は、デプス値の検出方向(奥行方向)における、ボクセル7と対象部位Pとの距離値である。
 v'は、撮影パラメータを作用させることができるように拡張されたボクセル7の座標を表す4元ベクトルである。
 Mは、ToFカメラ11の外部パラメータであり、4×3の実数行列Rとして表される。
 Kは、ToFカメラ11の内部パラメータであり、3×3の実数行列Rとして表される。
 π(v)は、3次元座標vを、2次元の画素に透視投影変換する関数である。例えば、3次元座標v(x、y、z)は、2次元座標(x'、y')=(x/z、y/z)に変換される。
 d(x)は、ToFカメラ11の画像(デプスマップ3)中の点xのデプス値である。すなわち、d(x)は、点xに対応する対象部位Pのカメラ座標におけるZ軸の値である。
 [v]zは、ボクセル7の座標vのカメラ座標53におけるZ軸の値である。
Here, D (v) is a distance value between the voxel 7 and the target portion P in the detection direction (depth direction) of the depth value.
v'is a four-vector representing the coordinates of the voxel 7 expanded so that the shooting parameters can be applied.
M is an external parameter of the ToF camera 11 and is represented as a 4 × 3 real number matrix R.
K is an internal parameter of the ToF camera 11 and is represented as a 3 × 3 real number matrix R.
π (v) is a function that transforms the three-dimensional coordinate v into a two-dimensional pixel by perspective projection. For example, the three-dimensional coordinates v (x, y, z) are converted into two-dimensional coordinates (x', y') = (x / z, y / z).
d (x) is the depth value of the point x in the image (depth map 3) of the ToF camera 11. That is, d (x) is a value on the Z axis in the camera coordinates of the target portion P corresponding to the point x.
[V] z is the value of the Z axis at the camera coordinate 53 of the coordinate v of the voxel 7.
 図13に示すように、座標vにあるボクセル7のカメラ座標53におけるZ軸の値は、[Mv']zと表される。また対象部位Pのカメラ座標53におけるZ軸の値、すなわち対象部位Pのデプス値は、d(π(KMv'))と表される。ここで、KMv'は、カメラ座標53に変換された対象部位Pの座標であり、π(KMv')は、対象部位Pが検出された画素の2次元座標である。
 D(v)は、上記したように、座標vのカメラ座標53におけるZ軸の値と、対象部位Pのデプス値との差分として表される。すなわち、D(v)は、デプス値の検出方向に沿った、ボクセル7と対象部位Pとの実際の距離を表すともいえる。
As shown in FIG. 13, the value of the Z axis at the camera coordinate 53 of the voxel 7 at the coordinate v is expressed as [Mv'] z. Further, the value on the Z axis at the camera coordinates 53 of the target portion P, that is, the depth value of the target portion P is expressed as d (π (KMv')). Here, KMv'is the coordinates of the target portion P converted into the camera coordinates 53, and π (KMv') is the two-dimensional coordinates of the pixel in which the target portion P is detected.
As described above, D (v) is represented as the difference between the Z-axis value at the camera coordinate 53 of the coordinate v and the depth value of the target portion P. That is, it can be said that D (v) represents the actual distance between the voxel 7 and the target site P along the detection direction of the depth value.
 (2)式にしめすように、D(v)の絶対値が閾値μより小さい場合に、D(v)を閾値μで割った値が距離パラメータF(v)となる。閾値μは、TSDF値の算出を打ち切るまでの距離である。従って、距離パラメータF(v)は、0≦F(v)<1を満たすように閾値μでD(v)を正規化した値となる。図13には、距離パラメータF(v)(あるいはD(v))を表す矢印が図示されている。 As shown in equation (2), when the absolute value of D (v) is smaller than the threshold value μ, the value obtained by dividing D (v) by the threshold value μ is the distance parameter F (v). The threshold value μ is the distance until the calculation of the TSDF value is stopped. Therefore, the distance parameter F (v) is a value obtained by normalizing D (v) with a threshold value μ so as to satisfy 0 ≦ F (v) <1. FIG. 13 shows an arrow representing the distance parameter F (v) (or D (v)).
 図14は、ボリュームデータ6の生成処理の一例を示すフローチャートである。図14に示す処理は、例えばデプスマップ3が取得される度に、図3に示すボリュームデータ生成部33により実行される処理である。あるいは、所定数のデプスマップ3が取得された後で、各デプスマップ3ごとに図14に示す処理が実行されてもよい。
 以下では、ボリュームデータ6(TSDFボリューム)に含まれるボクセル7を表す番号(インデックス)iと記載する。またボクセル7の座標をvと記載する。ここで、ボクセル7の座標vは、例えば対象物1の周辺の空間に固定されたモデリング用のローカル座標系で表される。
FIG. 14 is a flowchart showing an example of the volume data 6 generation process. The process shown in FIG. 14 is a process executed by the volume data generation unit 33 shown in FIG. 3, for example, every time the depth map 3 is acquired. Alternatively, after a predetermined number of depth maps 3 have been acquired, the process shown in FIG. 14 may be executed for each depth map 3.
Hereinafter, it is described as a number (index) i representing the voxel 7 included in the volume data 6 (TSDF volume). Further, the coordinates of the voxel 7 are described as v. Here, the coordinate v of the voxel 7 is represented by, for example, a local coordinate system for modeling fixed in the space around the object 1.
 まず、TSDF算出部44により、ボクセル7のインデックスiがi=0に初期化される(ステップ301)。次にi番目のボクセル7の座標vが読み込まれる(ステップ302)。次にボクセル7の座標vが世界座標52に変換される(ステップ303)。そして世界座標に変換されたボクセル7の座標vがカメラ座標53に投影される(ステップ304)。これにより、カメラ座標53におけるボクセル7の位置が算出されるため、ボクセル7の位置をデプス値と直接比較することが可能となる。 First, the index i of the voxel 7 is initialized to i = 0 by the TSDF calculation unit 44 (step 301). Next, the coordinate v of the i-th voxel 7 is read (step 302). Next, the coordinate v of the voxel 7 is converted into the world coordinate 52 (step 303). Then, the coordinate v of the voxel 7 converted into the world coordinates is projected on the camera coordinates 53 (step 304). As a result, the position of the voxel 7 at the camera coordinates 53 is calculated, so that the position of the voxel 7 can be directly compared with the depth value.
 次に、デプス値の検出方向(奥行方向)における、ボクセル7と対象部位Pとの距離値、すなわちD(v)が算出される(ステップ305)。そしてD(v)の絶対値が閾値μよりも小さいか否かが判定される(ステップ306)。
 例えば、D(v)の絶対値が、閾値μよりも大きいと判定された場合(ステップ306のNo)、距離パラメータFは算出されず、ボクセル7にはnull値が格納される(ステップ307)。
Next, the distance value between the voxel 7 and the target portion P in the detection direction (depth direction) of the depth value, that is, D (v) is calculated (step 305). Then, it is determined whether or not the absolute value of D (v) is smaller than the threshold value μ (step 306).
For example, when it is determined that the absolute value of D (v) is larger than the threshold value μ (No in step 306), the distance parameter F is not calculated and the null value is stored in the voxel 7 (step 307). ..
 また、D(v)の絶対値が、閾値μよりも小さいと判定された場合(ステップ306のYes)、デプス値のノイズレベルが算出される(ステップ308)。
 具体的には、ノイズレベル算出部45により、処理対象となっているデプスマップ3と同じ視点で撮影された赤外画像4が読み込まれる。またD(v)を算出する際に参照された対象部位Pのデプスマップ3における画素位置(π(KMv'))が読みこまれる。そして、赤外画像4から、対象部位Pの画素位置における赤外光の輝度値Iが抽出される。最後に、抽出された輝度値Iに基いて、(1)式に従ってノイズレベルσが算出される。
Further, when it is determined that the absolute value of D (v) is smaller than the threshold value μ (Yes in step 306), the noise level of the depth value is calculated (step 308).
Specifically, the noise level calculation unit 45 reads the infrared image 4 taken from the same viewpoint as the depth map 3 to be processed. Further, the pixel position (π (KMv')) in the depth map 3 of the target portion P referred to when calculating D (v) is read. Then, the brightness value I of the infrared light at the pixel position of the target portion P is extracted from the infrared image 4. Finally, the noise level σ is calculated according to the equation (1) based on the extracted luminance value I.
 このように、本実施形態では、ノイズレベル算出部45により、対象部位Pのデプス値のノイズレベルをσとし、対象部位Pで反射された赤外光の輝度値をIとし、予め設定された第1の係数をAとし、予め設定された第2の係数をBとして、式(1)に従ってノイズレベルが算出される。 As described above, in the present embodiment, the noise level of the depth value of the target portion P is set to σ and the brightness value of the infrared light reflected by the target portion P is set to I by the noise level calculation unit 45, which is preset. The noise level is calculated according to the equation (1), where A is the first coefficient and B is the preset second coefficient.
 ノイズレベルが算出されると、距離パラメータF(v)に関する重み値W(v)が算出される(ステップ309)。
 本実施形態では、TSDF算出部44により、重み値W(v)の分布が対象部位Pでピークとなる正規分布となるように、複数のボクセル7のそれぞれに重み値W(v)が設定される。すなわち、重み値W(v)の分布は、対象部位Pを中心とする正規分布となる。
When the noise level is calculated, the weight value W (v) with respect to the distance parameter F (v) is calculated (step 309).
In the present embodiment, the TSDF calculation unit 44 sets the weight value W (v) for each of the plurality of voxels 7 so that the distribution of the weight value W (v) becomes a normal distribution having a peak at the target site P. To. That is, the distribution of the weight value W (v) is a normal distribution centered on the target site P.
 この時、対象部位Pでピークとなる重み値W(v)の分布の幅が、ノイズレベルσに応じて調整される。このように、本実施形態では、対象部位Pで反射された照射光の輝度値に基いて、デプス値のノイズレベルが算出され、そのノイズレベルに基いて重み値W(v)の分布の幅が設定される。
 具体的には、距離パラメータF(v)に関する重み値W(v)は、以下に示す(3)式で定義される。
At this time, the width of the distribution of the weight value W (v) that peaks at the target portion P is adjusted according to the noise level σ. As described above, in the present embodiment, the noise level of the depth value is calculated based on the luminance value of the irradiation light reflected by the target portion P, and the width of the distribution of the weight value W (v) is calculated based on the noise level. Is set.
Specifically, the weight value W (v) with respect to the distance parameter F (v) is defined by the following equation (3).
Figure JPOXMLDOC01-appb-M000005
Figure JPOXMLDOC01-appb-M000005
 (3)式にしめすように、重み値W(v)は、D(v)=0となる部位(対象部位P)を最大値とした正規分布のような山の形をした分布を形成する。この分布の幅は、σとδの値によって定まる。
ここで、σは、ステップ308において、先のキャリブレーション処理で取得した係数A及び係数Bをもとに、(1)式に従って推定したデプスマップ3のノイズレベルの値である。
 δは、分布の幅を調整するためのバイアス値であり、調整係数として機能する。
 本実施形態では、(3)式は、重み値を設定する式に相当する。
As shown in equation (3), the weight value W (v) forms a mountain-shaped distribution such as a normal distribution with the maximum value of the site (target site P) where D (v) = 0. .. The width of this distribution is determined by the values of σ and δ.
Here, σ is the value of the noise level of the depth map 3 estimated according to the equation (1) based on the coefficient A and the coefficient B acquired in the previous calibration process in step 308.
δ is a bias value for adjusting the width of the distribution and functions as an adjustment coefficient.
In the present embodiment, the equation (3) corresponds to the equation for setting the weight value.
 このように、本実施形態では、TSDF算出部44により、ボクセル7の位置座標をvとし、デプス値の検出方向におけるボクセル7と対象部位Pとの距離をD(v)とし、ボクセル7に設定される重み値をW(v)とし、対象部位Pのデプス値のノイズレベルをσとし、予め設定された調整係数をδとして、(3)式に従って重み値W(v)が設定される。
 なお、重み値W(v)の分布は、正規分布に限定されず、対象部位Pで値が最大となるような任意の分布を用いることが可能である。
As described above, in the present embodiment, the TSDF calculation unit 44 sets the position coordinates of the voxel 7 as v, sets the distance between the voxel 7 and the target portion P in the detection direction of the depth value as D (v), and sets the voxel 7. The weight value W (v) is set according to the equation (3), where W (v) is the weight value, the noise level of the depth value of the target portion P is σ, and the preset adjustment coefficient is δ.
The distribution of the weight value W (v) is not limited to the normal distribution, and any distribution having the maximum value at the target site P can be used.
 図15は、距離パラメータに対する重み値の設定例を示す模式図である。図15には、対象物1の一例として、上方から見た対象者の顔(頭部)が模式的に図示されている。また、対象者の顔の表面にある対象部位(P1及びP2)について、各対象部位のデプス値のノイズレベルσをもとに設定される重み値W(v)の分布がグレーの領域により模式的に図示されている。 FIG. 15 is a schematic diagram showing an example of setting a weight value for a distance parameter. FIG. 15 schematically shows the face (head) of the subject as seen from above as an example of the object 1. Further, for the target parts (P1 and P2) on the surface of the target person's face, the distribution of the weight value W (v) set based on the noise level σ of the depth value of each target part is schematically represented by the gray area. Is illustrated.
 図4Cを参照して説明したように、一般に黒髪等の髪の毛の部位は、赤外光を反射しにくい。このため、髪の毛のある部位等については、肌が露出している部位に比べて、赤外光の輝度が低下し、デプス値のノイズレベルσは大きくなる傾向がある。
 図15に示すように、髪の毛のある部位に存在する対象部位P2はσの値が大きい(ノイズレベルが高い)ため、(3)式に従って、重み値W(v)を計算すると、重み値W(v)の分布の幅が広くなる。すなわち、対象部位P2から遠方にあるボクセル7にまで重み値W(v)が格納されることになる。
 これにより、デプス値の揺らぎが大きいような対象部位についても、その位置を適正に表すことが可能となる。
As described with reference to FIG. 4C, it is generally difficult for a hair portion such as black hair to reflect infrared light. Therefore, in the portion with hair and the like, the brightness of infrared light tends to be lower and the noise level σ of the depth value tends to be larger than that in the portion where the skin is exposed.
As shown in FIG. 15, since the target portion P2 existing in the portion with hair has a large value of σ (high noise level), the weight value W (v) is calculated according to the equation (3). The width of the distribution of (v) becomes wider. That is, the weight value W (v) is stored up to the voxel 7 far from the target portion P2.
As a result, it is possible to properly represent the position of the target portion where the fluctuation of the depth value is large.
 一方で、肌が露出している部位等では、ノイズレベルが低くデプス値が高精度に検出されることが考えられる。例えば図15に示すように、鼻の側面に存在する対象部位P1では、ノイズレベルσの値が小さいため、重み値W(v)の分布の幅が狭くなる。すなわち、対象部位P1から近距離にあるボクセル7にのみ、重み値W(v)が格納されることになる。
 これにより、デプス値の揺らぎが小さくデプス値が信頼できるような対象部位については、距離パラメータF(v)を有効化する範囲、すなわち重み値W(v)が設定される範囲が狭くなる。
On the other hand, it is conceivable that the noise level is low and the depth value is detected with high accuracy in the part where the skin is exposed. For example, as shown in FIG. 15, in the target portion P1 existing on the side surface of the nose, since the value of the noise level σ is small, the width of the distribution of the weight value W (v) becomes narrow. That is, the weight value W (v) is stored only in the voxel 7 which is a short distance from the target portion P1.
As a result, the range in which the distance parameter F (v) is valid, that is, the range in which the weight value W (v) is set is narrowed for the target portion where the fluctuation of the depth value is small and the depth value is reliable.
 例えば、ボリュームデータ6(TSDFボリューム)を生成する際に、閾値μの値を大きくすることで、デプス値のノイズに対する耐性を向上することができる。一方で図6を参照して説明したように、閾値μの値を大きくとると裏面に対して影響を与えてしまう恐れがある。
 本実施形態では、上記した方法で、重み値W(v)の分布の幅が制御され、対象部位Pごとに適応的に重み値W(v)を格納することが可能となる。この結果、デプス値のノイズが大きい部分では、広い範囲に重み値W(v)を設定し、デプス値のノイズが小さい部分では、重み値W(v)の分布の幅が狭められる。これにより、ノイズ耐性を維持しつつ、距離パラメータF(v)の不必要な干渉等を回避することが可能となる。
For example, when the volume data 6 (TSDF volume) is generated, the resistance to noise of the depth value can be improved by increasing the value of the threshold value μ. On the other hand, as described with reference to FIG. 6, if the value of the threshold value μ is large, there is a possibility that the back surface is affected.
In the present embodiment, the width of the distribution of the weight value W (v) is controlled by the above method, and the weight value W (v) can be adaptively stored for each target portion P. As a result, the weight value W (v) is set in a wide range in the portion where the noise of the depth value is large, and the width of the distribution of the weight value W (v) is narrowed in the portion where the noise of the depth value is small. This makes it possible to avoid unnecessary interference of the distance parameter F (v) while maintaining noise immunity.
 図14に戻り、重み値W(v)が算出されると、距離パラメータF(v)が算出される(ステップ310)。ここでは、TSDF算出部44により、(2)式に従って、D(v)を閾値μで正規化してF(v)が算出される。
 そして、ステップ309で算出された重み値W(v)と、ステップ310で算出された距離パラメータF(v)がボクセル7に格納される(ステップ311)。例えば、ボクセル7ごとに用意された変数値として、W(v)及びF(v)の算出結果が記憶される。
 各データがボクセル7に格納されると、未処理のボクセル7があるか否かが判定される(ステップ312)。未処理のボクセル7が存在する場合(ステップ312のYes)、ボクセル7のインデックスiがインクリメントされ(ステップ313)、ステップ302以降の処理が再度実行される。また、未処理のボクセル7が存在しない場合(ステップ312のNo)、全てのボクセル7について処理が完了したとして、ボリュームデータ6の生成処理が終了する。
Returning to FIG. 14, when the weight value W (v) is calculated, the distance parameter F (v) is calculated (step 310). Here, the TSDF calculation unit 44 normalizes D (v) with the threshold value μ according to the equation (2) to calculate F (v).
Then, the weight value W (v) calculated in step 309 and the distance parameter F (v) calculated in step 310 are stored in the voxel 7 (step 311). For example, the calculation results of W (v) and F (v) are stored as variable values prepared for each voxel 7.
When each data is stored in voxels 7, it is determined whether or not there are unprocessed voxels 7 (step 312). If there is an unprocessed voxel 7 (Yes in step 312), the index i of the voxel 7 is incremented (step 313), and the processes after step 302 are executed again. If there is no unprocessed voxel 7 (No in step 312), it is assumed that the processing is completed for all voxels 7, and the volume data 6 generation processing is completed.
 [ボリュームデータの統合処理]
 ここでは、Volumetric TSDFのデータ構造をもった複数のボリュームデータ6を統合して、対象物1の形状を復元する方法について説明する。
 例えば、図14に示す処理が、複数の視点から撮影されたデプスマップ3ごとに実行され、複数のボリュームデータ6が生成される。そしてこれらのボリュームデータ6が上記した重み値を使って統合される。このようにボリュームデータ6を統合する処理は、デプスマップ3を統合する処理であるともいえる。
[Volume data integration processing]
Here, a method of reconstructing the shape of the object 1 by integrating a plurality of volume data 6 having a Volumetric TSDF data structure will be described.
For example, the process shown in FIG. 14 is executed for each depth map 3 taken from a plurality of viewpoints, and a plurality of volume data 6 are generated. Then, these volume data 6 are integrated using the above-mentioned weight values. It can be said that the process of integrating the volume data 6 in this way is the process of integrating the depth map 3.
 ボリュームデータ6の各ボクセル7には、距離パラメータF(v)と、ボクセル7ごとに設定された重み値W(v)とが格納される。例えば、i番目のデプスマップ3から生成したデータと、i+1番目のデプスマップ3から生成したデータとを統合する場合、統合される距離パラメータF(v)及び重み値W(v)は、以下に示す(4)式に従って算出することが可能である。 The distance parameter F (v) and the weight value W (v) set for each voxel 7 are stored in each voxel 7 of the volume data 6. For example, when the data generated from the i-th depth map 3 and the data generated from the i + 1th depth map 3 are integrated, the integrated distance parameter F (v) and the weight value W (v) are as follows. It can be calculated according to the formula (4) shown.
Figure JPOXMLDOC01-appb-M000006
 ここで、下付きの添え字(i及びi+1)は、対応するデプスマップ3(ボリュームデータ6)の番号を表すインデックスである。
Figure JPOXMLDOC01-appb-M000006
Here, the subscripts (i and i + 1) are indexes representing the numbers of the corresponding depth maps 3 (volume data 6).
 例えば、i番目のボリュームデータ6が生成されると、ボクセル統合部46により、それまでに統合されていたボリュームデータ(1番目からi-1番目のボリュームデータ6を統合したデータ)に、(4)式に従ってi番目のボリュームデータ6が統合される。このように、ボリュームデータ6は逐次統合されて、最終的な統合ボリュームデータが生成される。そして、メッシュ抽出部47により、統合ボリュームデータから、対象物1の形状を復元した3Dモデル2のモデルデータ22が生成される。
 このように、本実施形態では、ボクセル統合部46により、重み値W(v)に基づく複数のボクセル7それぞれの距離パラメータF(v)の重み付き和に基づいて、複数のボクセル7に対応する各デプスマップ3が統合される。すなわち、異なる視点で撮影されたデプスマップ3(ボリュームデータ6)が(4)式を用いて統合される。これにより、ノイズに強く、かつ高品位な3次元形状復元を実現することが可能となる。
For example, when the i-th volume data 6 is generated, the voxel integration unit 46 adds (4) to the volume data (data obtained by integrating the first to i-1st volume data 6) that has been integrated up to that point. ) The i-th volume data 6 is integrated according to the equation. In this way, the volume data 6 is sequentially integrated to generate the final integrated volume data. Then, the mesh extraction unit 47 generates model data 22 of the 3D model 2 in which the shape of the object 1 is restored from the integrated volume data.
As described above, in the present embodiment, the voxel integration unit 46 corresponds to the plurality of voxels 7 based on the weighted sum of the distance parameters F (v) of each of the plurality of voxels 7 based on the weight value W (v). Each depth map 3 is integrated. That is, the depth maps 3 (volume data 6) taken from different viewpoints are integrated using the equation (4). This makes it possible to realize high-quality three-dimensional shape restoration that is resistant to noise.
 図16は、3Dモデルの生成例を示す図である。図16Aには、本技術を適用して、重み値W(v)の分布の幅を調整して生成された人物の顔の3Dモデル2が示されている。また図16Bには、重み値W(v)の分布の幅を調整せずに生成された人物の顔の3Dモデル2が示されている。 FIG. 16 is a diagram showing an example of generating a 3D model. FIG. 16A shows a 3D model 2 of a person's face generated by adjusting the width of the distribution of the weight value W (v) by applying the present technique. Further, FIG. 16B shows a 3D model 2 of a person's face generated without adjusting the width of the distribution of the weight value W (v).
 例えば図16Bに示す例では、重み値W(v)の分布の幅が調整されないため、視点を変えて算出される距離パラメータF(v)が干渉する。この結果、対象者の鼻が膨らんだように変形した3Dモデル2が生成され、誤った形状が復元されることになる。
 これに対して、図16Aに示すように、重み値W(v)の分布の幅を調整した場合、例えば対象者の鼻の側面において、距離パラメータF(v)の重み値W(v)が低く設定される。これにより、対象者の鼻の側面で、距離パラメータF(v)が干渉するといった事態が回避される。この結果、図16Aに示すように、対象者の鼻の形状を高精度に復元することが可能となり、対象物1の形状を精度よく再現した高精度な3Dモデル2を容易に生成することが可能となる。
For example, in the example shown in FIG. 16B, since the width of the distribution of the weight value W (v) is not adjusted, the distance parameter F (v) calculated from different viewpoints interferes. As a result, a 3D model 2 deformed so that the subject's nose is swollen is generated, and the incorrect shape is restored.
On the other hand, as shown in FIG. 16A, when the width of the distribution of the weight value W (v) is adjusted, the weight value W (v) of the distance parameter F (v) becomes, for example, on the side surface of the nose of the subject. Set low. This avoids a situation in which the distance parameter F (v) interferes with the side surface of the subject's nose. As a result, as shown in FIG. 16A, the shape of the nose of the subject can be restored with high accuracy, and a highly accurate 3D model 2 that accurately reproduces the shape of the object 1 can be easily generated. It will be possible.
 [視線ベクトルを利用した重み値の設定]
 上記では、主に対象部位Pの反射特性(赤外光の輝度値)を参照して、重み値W(V)を設定する方法について説明した。
 TSDFの重み値W(v)の値として、対象物1の表面の形状に応じたデプス値の信頼度が用いられてもよい。具体的には、デプスマップ3のノイズレベルのほかに対象物1の表面の向きとToFカメラ11により撮影される向きとのなす角を併用することでより精度を向上させることが可能となる。
[Setting weight value using line-of-sight vector]
In the above, the method of setting the weight value W (V) has been described mainly by referring to the reflection characteristic (luminance value of infrared light) of the target portion P.
As the value of the weight value W (v) of TSDF, the reliability of the depth value according to the shape of the surface of the object 1 may be used. Specifically, the accuracy can be further improved by using the angle formed by the orientation of the surface of the object 1 and the orientation taken by the ToF camera 11 in addition to the noise level of the depth map 3.
 図17は、法線ベクトルと視線ベクトルとの関係を示す模式図である。図17には、対象部位Pにおける対象物1の表面の法線ベクトルnと、対象部位Pに向けられたToFカメラ11の視線ベクトルrとが、それぞれ模式的に図示されている。
 法線ベクトルnは、対象部位Pで対象物1の表面に直交する単位ベクトルである。例えば、デプスマップ3を用いて対象物1の表面形状が簡易的に推定される。この表面形状の推定結果に基いて、対象部位Pでの法線ベクトルnが算出される。
 視線ベクトルrは、ToFカメラ11から対象部位Pを見た場合に、その観察方向を示す単位ベクトルである。例えば、ToFカメラ11の現在位置と対象部位Pとを結ぶ線に沿った方向が視線ベクトルrとなる。
FIG. 17 is a schematic diagram showing the relationship between the normal vector and the line-of-sight vector. In FIG. 17, the normal vector n on the surface of the object 1 in the target portion P and the line-of-sight vector r of the ToF camera 11 directed to the target portion P are schematically shown.
The normal vector n is a unit vector orthogonal to the surface of the object 1 at the target portion P. For example, the surface shape of the object 1 is easily estimated using the depth map 3. Based on the estimation result of the surface shape, the normal vector n at the target portion P is calculated.
The line-of-sight vector r is a unit vector indicating the observation direction when the target portion P is viewed from the ToF camera 11. For example, the direction along the line connecting the current position of the ToF camera 11 and the target portion P is the line-of-sight vector r.
 ここでは、法線ベクトルnと視線ベクトルrとに基いて、重み値W(V)を設定する方法について説明する。
 モバイル端末100では、上記したように、対象部位Pで反射された赤外光を検出するToFカメラ11の出力に基いてデプス値が算出される。この時、赤外光は視線ベクトルr
に沿って対象部位に入射し、その反射光が検出される。従って、例えば赤外光が検出される方向(ToFカメラ11の視線ベクトルr)と対象物1の表面のなす角が平行に近い場合、デプス値の精度が下がる可能性がある。
 そこで、本実施形態では、TSDF算出部により、ToFカメラ11から対象部位Pに向かう視線ベクトルrと対象部位Pの表面との角度に応じて、重み値W(v)が調整される。
Here, a method of setting the weight value W (V) based on the normal vector n and the line-of-sight vector r will be described.
In the mobile terminal 100, as described above, the depth value is calculated based on the output of the ToF camera 11 that detects the infrared light reflected by the target portion P. At this time, the infrared light is the line-of-sight vector r.
It is incident on the target site along the line, and the reflected light is detected. Therefore, for example, when the angle formed by the surface of the object 1 is close to the direction in which infrared light is detected (the line-of-sight vector r of the ToF camera 11), the accuracy of the depth value may decrease.
Therefore, in the present embodiment, the TSDF calculation unit adjusts the weight value W (v) according to the angle between the line-of-sight vector r from the ToF camera 11 toward the target portion P and the surface of the target portion P.
 例えば、対象物1の表面の法線ベクトルnに対して、ToFカメラ11が正対している場合、デプス値の精度が最も高く、ToFカメラ11の視線ベクトルrが斜めになるほど精度が下がると考えられる。この特性をTSDF値(距離パラメータF(v))に反映させることで、3Dモデル2の精度が向上すると期待できる。
 具体的には、距離パラメータF(v)に関する重み値W(v)が、以下に示す(5)式に従って算出される。
For example, when the ToF camera 11 faces the normal vector n on the surface of the object 1, the accuracy of the depth value is the highest, and it is considered that the accuracy decreases as the line-of-sight vector r of the ToF camera 11 becomes slanted. Be done. By reflecting this characteristic in the TSDF value (distance parameter F (v)), it can be expected that the accuracy of the 3D model 2 will be improved.
Specifically, the weight value W (v) with respect to the distance parameter F (v) is calculated according to the following equation (5).
Figure JPOXMLDOC01-appb-M000007
 ここで、r及びnは、上記した法線ベクトルn及び視線ベクトルrである。
Figure JPOXMLDOC01-appb-M000007
Here, r and n are the above-mentioned normal vector n and line-of-sight vector r.
 (5)式は、上記した(3)式に、法線ベクトルnと視線ベクトルrとの内積を表す項(-r・n)を乗算した式となっている。
 例えば、法線ベクトルnと視線ベクトルrとの間の角度をθとした場合、(5)式の内積を表す項は、法線ベクトルnと視線ベクトルrとの間のcosθで表される。従って、視線ベクトルrが面に対して垂直になるほどθは0に近づき、内積の項は値が1に近づく。逆に、視線ベクトルrが面に対して平行になるほどθは90°に近づき、内積の項は値が0に近づく。
The equation (5) is an equation obtained by multiplying the above equation (3) by a term (−r · n) representing the inner product of the normal vector n and the line-of-sight vector r.
For example, when the angle between the normal vector n and the line-of-sight vector r is θ, the term representing the inner product of the equation (5) is represented by cos θ between the normal vector n and the line-of-sight vector r. Therefore, as the line-of-sight vector r becomes perpendicular to the surface, θ approaches 0, and the value of the inner product term approaches 1. On the contrary, as the line-of-sight vector r becomes parallel to the plane, θ approaches 90 °, and the value of the inner product term approaches 0.
 このように、本実施形態では、対象部位Pの表面における法線ベクトルnと視線ベクトルrとの内積に比例するように距離パラメータF(v)に関する重み値W(v)が設定される。これにより、例えば同一箇所を複数の視点から観測した際に、デプス値の精度が高いことが期待できる視点位置の情報を積極的に利用するように、W(v)を設定することが可能となる。このため、より高い精度で形状を復元することが可能となる。 As described above, in the present embodiment, the weight value W (v) with respect to the distance parameter F (v) is set so as to be proportional to the inner product of the normal vector n and the line-of-sight vector r on the surface of the target portion P. This makes it possible to set W (v) so that, for example, when observing the same location from multiple viewpoints, the information on the viewpoint position, which is expected to have high accuracy of the depth value, is positively used. Become. Therefore, it is possible to restore the shape with higher accuracy.
 以上、本実施形態に係るコントローラ30では、対象物1に赤外光が照射され、対象部位Pのデプス値がToF方式で取得される。また、デプス値に基づく対象部位Pまでの距離パラメータF(v)に関し、対象部位を基準とした重み値W(v)が設定される。この重み値W(v)の分布の幅は、対象部位Pで反射された赤外光の輝度値が大きいほど、狭く設定される。これにより、例えば対象部位Pの位置を適正な精度で表すことが可能となり、3次元形状を高精度に検出することが可能となる。 As described above, in the controller 30 according to the present embodiment, the object 1 is irradiated with infrared light, and the depth value of the target portion P is acquired by the ToF method. Further, with respect to the distance parameter F (v) to the target portion P based on the depth value, the weight value W (v) with respect to the target portion is set. The width of the distribution of the weight value W (v) is set narrower as the luminance value of the infrared light reflected by the target portion P increases. As a result, for example, the position of the target portion P can be represented with appropriate accuracy, and the three-dimensional shape can be detected with high accuracy.
 実物体の3次元形状を復元する方法として、例えば多数のカメラを利用したPhotogrammetryという方法が知られている。この方法では、多数のカメラが必要になるため、モデリングに要するコストが増大する恐れがある。また、大掛かりな撮影システムとなるため、被写体を移動できない場合等には撮影そのものできないといった場合も考えられる。 As a method of restoring the three-dimensional shape of a real object, for example, a method called Photogrammetry using a large number of cameras is known. This method requires a large number of cameras, which may increase the cost of modeling. In addition, since it is a large-scale shooting system, it is possible that the shooting itself cannot be performed when the subject cannot be moved.
 本実施形態では、対象物1の反射特性に起因するデプス値のノイズレベルを考慮して、Volumetric TSDFの各ボクセル7に対して適応的な重み値W(v)が与えられる。この時、ノイズレベルの算出には、デプスマップ3と同時に取得可能な赤外画像4が利用される。これにより、実物体の3次元形状を高精度に復元することが可能となる。また、装置構成がシンプルであるため、精度のよい3次元モデリング等を低コストで実現することが可能となる。 In the present embodiment, an adaptive weight value W (v) is given to each voxel 7 of the Masstric TSDF in consideration of the noise level of the depth value caused by the reflection characteristic of the object 1. At this time, the infrared image 4 that can be acquired at the same time as the depth map 3 is used to calculate the noise level. This makes it possible to restore the three-dimensional shape of a real object with high accuracy. In addition, since the device configuration is simple, it is possible to realize highly accurate 3D modeling and the like at low cost.
 また本技術を用いることで、モバイル端末100のように、単眼のToFカメラ11のみを利用した高精度な形状復元が可能となる。このため、本技術を利用することで、例えばToFカメラ11が搭載されたスマートフォンやタブレット端末において手軽に高品位な3次元形状復元を実現することが可能となる。これにより、身近な物体の形状を記録し、3Dモデルとして共有するといった、これまでにない新しい体験をユーザに提供することが可能となる。 Further, by using this technology, it is possible to perform high-precision shape restoration using only the monocular ToF camera 11 like the mobile terminal 100. Therefore, by using this technology, it is possible to easily realize high-quality three-dimensional shape restoration in a smartphone or tablet terminal equipped with a ToF camera 11, for example. This makes it possible to provide users with an unprecedented new experience, such as recording the shapes of familiar objects and sharing them as 3D models.
 また近年では、スマートフォン等のデバイスに搭載されるカメラの多眼化やデプスセンサの搭載が積極的に進められている。例えば、Structured Light方式のデプスセンサをフロントに搭載して、顔認証機能を実現するデバイスや、ToFセンサとIRカメラとを組み合わせたセンサ(ToFカメラ)をフロントに搭載しており、顔認証に加え、静脈認証や非接触のジェスチャ認識機能を実現するデバイスが開発されている。
 このような流れは、今後も加速していくことが予想され、多くのデバイスにToFセンサが搭載される可能性も高いと予想される。本技術は、このようなToFセンサを搭載したデバイスに適用可能であり、3Dモデルの生成をはじめとして対象物の形状を高品位・高精度に3次元復元する技術を提供することが可能である。
In recent years, cameras mounted on devices such as smartphones have been actively promoted to have multiple eyes and depth sensors. For example, a device that realizes a face recognition function by mounting a Structured Light depth sensor on the front and a sensor that combines a ToF sensor and an IR camera (ToF camera) are mounted on the front, in addition to face recognition. Devices have been developed that realize vein recognition and non-contact gesture recognition functions.
It is expected that such a trend will continue to accelerate in the future, and it is highly likely that ToF sensors will be installed in many devices. This technology can be applied to devices equipped with such a ToF sensor, and it is possible to provide a technology for three-dimensionally restoring the shape of an object with high quality and high accuracy, including the generation of a 3D model. ..
 <第2の実施形態>
 本技術に係る第2の実施形態の撮影システムについて説明する。これ以降の説明では、上記の実施形態で説明したモバイル端末100における構成及び作用と同様な部分については、その説明を省略又は簡略化する。
<Second embodiment>
The photographing system of the second embodiment which concerns on this technique will be described. In the following description, the description of the parts similar to the configuration and operation in the mobile terminal 100 described in the above embodiment will be omitted or simplified.
 図18は、第2の実施形態に係る撮影システムを示す模式図である。この撮影システム200は、複数のToFカメラ211を有する。
 各ToFカメラ211は、例えば所定の撮影領域201を囲むように配置される。ToFカメラ211としては、例えば図1に示すToFカメラ11と同様のデバイスが用いられる。なおToFカメラ211は単体の撮影装置として構成されてもよいし、スマートフォン等の情報端末に設けられたToFカメラ211を相互に接続して用いてもよい。
FIG. 18 is a schematic diagram showing a photographing system according to the second embodiment. The photographing system 200 has a plurality of ToF cameras 211.
Each ToF camera 211 is arranged so as to surround, for example, a predetermined shooting area 201. As the ToF camera 211, for example, the same device as the ToF camera 11 shown in FIG. 1 is used. The ToF camera 211 may be configured as a single photographing device, or may be used by connecting the ToF camera 211 provided in an information terminal such as a smartphone to each other.
 対象物1は、ToFカメラ11により囲まれた撮影領域201に配置される。すなわち、撮影システム200は、対象物1の周囲を複数のToFカメラ211で取り囲んで、様々な方位から対象物1を撮影するシステムである。
 撮影システム200では、対象物1を囲むように設けられた複数のToFカメラ211の出力に基いてデプス値が算出される。例えば、複数のToFカメラ211により、対象物1が同時に撮影され、各カメラの出力に基いて画素ごとにデプス値が算出される。これにより、複数のデプスマップ3を一度に生成することが可能である。
 このため、撮影システム200では、対象物1が動いている場合にも、各瞬間の形状を精度よく測定することが可能となる。
The object 1 is arranged in the photographing area 201 surrounded by the ToF camera 11. That is, the photographing system 200 is a system that surrounds the object 1 with a plurality of ToF cameras 211 and photographs the object 1 from various directions.
In the photographing system 200, the depth value is calculated based on the outputs of a plurality of ToF cameras 211 provided so as to surround the object 1. For example, the object 1 is simultaneously photographed by a plurality of ToF cameras 211, and the depth value is calculated for each pixel based on the output of each camera. This makes it possible to generate a plurality of depth maps 3 at once.
Therefore, in the photographing system 200, even when the object 1 is moving, it is possible to accurately measure the shape at each moment.
 これらのデプスマップ3に対してボリュームデータ6(位置パラメータF(v)及び重み値W(v))がそれぞれ生成される。この時、各ToFカメラ211の位置・姿勢等の撮影パラメータが適宜参照される。撮影パラメータは、例えば事前のキャリブレーションにより取得される。
 重み値W(v)を設定する際に、例えば赤外画像4から算出されたノイズレベルにおうじて、重み値W(v)の分布の幅が設定される。このように。重み値W(v)が適応的に設定されたボリュームデータ6を用いることで、高精度な形状復元を実現することが可能となる。
Volume data 6 (position parameter F (v) and weight value W (v)) are generated for each of these depth maps 3. At this time, shooting parameters such as the position and posture of each ToF camera 211 are appropriately referred to. The shooting parameters are acquired, for example, by pre-calibration.
When setting the weight value W (v), for example, the width of the distribution of the weight value W (v) is set according to the noise level calculated from the infrared image 4. in this way. By using the volume data 6 in which the weight value W (v) is adaptively set, it is possible to realize highly accurate shape restoration.
 <第3の実施形態>
 図19は、第3の実施形態に係る撮影システムを示す模式図である。この撮影システム300は、ToFカメラ311と、回転ステージ312とを有する。
 ToFカメラ311は、回転ステージ312上の物体が撮影できるように配置される。ToFカメラ311としては、例えば図1に示すToFカメラ11と同様のデバイスが用いられる。
 回転ステージ312は、所定の軸を中心に回転する台座である。回転ステージ312としては、例えばターンテーブル等が用いられる。
<Third embodiment>
FIG. 19 is a schematic diagram showing a photographing system according to the third embodiment. The photographing system 300 has a ToF camera 311 and a rotating stage 312.
The ToF camera 311 is arranged so that an object on the rotating stage 312 can be photographed. As the ToF camera 311, for example, the same device as the ToF camera 11 shown in FIG. 1 is used.
The rotary stage 312 is a pedestal that rotates about a predetermined axis. As the rotary stage 312, for example, a turntable or the like is used.
 対象物1は、回転ステージ312上に載置される。すなわち、撮影システム300では、対象物1は、回転可能に配置されるともいえる。
 そして、対象物1が回転した状態で、ToFカメラ311により対象物1が所定のフレームレートで撮影され、画素ごとにデプス値が算出される。これにより、対象物1を異なる方向から見た複数のデプスマップ3が生成される。
 このように、撮影システム300では、回転する対象物1を撮影するToFカメラ311の出力に基いてデプス値が算出される。
The object 1 is placed on the rotary stage 312. That is, in the photographing system 300, it can be said that the object 1 is rotatably arranged.
Then, with the object 1 rotated, the object 1 is photographed at a predetermined frame rate by the ToF camera 311, and the depth value is calculated for each pixel. As a result, a plurality of depth maps 3 in which the object 1 is viewed from different directions are generated.
As described above, in the photographing system 300, the depth value is calculated based on the output of the ToF camera 311 that photographs the rotating object 1.
 例えば、図19に示すように、対象物1が回転ステージ312に乗っており、対象物1の運動自体が剛体運動に限定される場合、対象物1とToFカメラ311との位置関係を推定することが可能である。例えば、対象物1の領域が画像認識等によりセグメンテーションされる。そしてVisual SLAM等の方法を利用して、対象物1と各フレームにおけるToFカメラ311と間の位置関係が推定される。
 この位置関係に基いて、各フレームで取得されたデプスマップ3ごとに、ボリュームデータ6(位置パラメータF(v)及び重み値W(v))がそれぞれ生成され、対象物1の3Dモデル2が生成される。
For example, as shown in FIG. 19, when the object 1 is on the rotation stage 312 and the motion of the object 1 itself is limited to the rigid body motion, the positional relationship between the object 1 and the ToF camera 311 is estimated. It is possible. For example, the area of the object 1 is segmented by image recognition or the like. Then, using a method such as Visual SLAM, the positional relationship between the object 1 and the ToF camera 311 in each frame is estimated.
Based on this positional relationship, volume data 6 (position parameter F (v) and weight value W (v)) are generated for each depth map 3 acquired in each frame, and the 3D model 2 of the object 1 is generated. Generated.
 なお、図19に示すように、対象物1が回転運動する場合以外にも、例えば対象物が併進運動するようなステージ等が用いられてもよい。この場合であっても、対象物1を異なる位置から撮影したデプスマップ3が取得できる。
 また例えば、対象物1の運動が非剛体運動である場合には、例えば各映像フレームにおける非剛体運動をパラメトリックに表現するWarp-Field推定と組み合わせることで、形状復元を実現することが可能である。
As shown in FIG. 19, a stage or the like in which the object moves in parallel may be used in addition to the case where the object 1 rotates. Even in this case, the depth map 3 obtained by photographing the object 1 from different positions can be obtained.
Further, for example, when the motion of the object 1 is a non-rigid body motion, it is possible to realize shape restoration by combining with Warp-Field estimation that parametrically expresses the non-rigid body motion in each video frame, for example. ..
 <その他の実施形態>
 本技術は、以上説明した実施形態に限定されず、他の種々の実施形態を実現することができる。
<Other embodiments>
The present technology is not limited to the embodiments described above, and various other embodiments can be realized.
 上記では、デプス値とともに赤外画像が取得できるToFカメラを例に挙げて説明した。これに限定されず、赤外画像が取得できない場合等には、他のカメラの画像等を用いて、デプス値のノイズレベルを推定することも可能である。
 例えば、ToFセンサに隣接する位置にカラーカメラ(外向きカメラ等)が設けられている場合、カラーカメラにより撮影される画像に基いて、赤外光の輝度値の代わりとして利用することが可能である。
In the above, a ToF camera capable of acquiring an infrared image together with a depth value has been described as an example. Not limited to this, when an infrared image cannot be acquired, it is possible to estimate the noise level of the depth value by using an image of another camera or the like.
For example, when a color camera (outward facing camera, etc.) is provided at a position adjacent to the ToF sensor, it can be used as a substitute for the brightness value of infrared light based on the image taken by the color camera. be.
 例えば、ToFセンサが用いる照射光が赤外光である場合、カラーカメラの出力の内、赤外光に最も波長の近い赤色の画素値(Red Channel)を赤外光の輝度値の代わりに利用することでノイズレベルが推定される。この場合、キャリブレーション処理では、赤色の画素値と、デプス値の標準偏差との関係を示す回帰関数(回帰係数)が算出される。
 なお、ToFセンサとカラーカメラとの光軸は異なるため、事前にカメラの幾何学的なキャリブレーションを行い、両者の内部パラメータや素子間の位置関係の情報等が予め算出されて用いられる。
 これにより、ToFカメラが設けられていない場合であっても、高精度な3次元形状の復原処理を実現することが可能となる。
For example, when the irradiation light used by the ToF sensor is infrared light, the red pixel value (Red Channel), which has the closest wavelength to the infrared light, is used instead of the brightness value of the infrared light in the output of the color camera. The noise level is estimated by doing so. In this case, in the calibration process, a regression function (regression coefficient) showing the relationship between the red pixel value and the standard deviation of the depth value is calculated.
Since the optical axes of the ToF sensor and the color camera are different, the camera is geometrically calibrated in advance, and the internal parameters of the two and the information on the positional relationship between the elements are calculated and used in advance.
This makes it possible to realize highly accurate three-dimensional shape restoration processing even when a ToF camera is not provided.
 上記では、主に対象物の3Dモデルを生成する形状復元について説明した。これに限定されず、デプス値を用いた任意のアプリケーションに本技術が適用されてもよい。例えば顔認証や非接触ジェスチャの認識では、実空間上の顔や手の形状を認識する処理が行われる。この際、複数のデプスマップを組み合わせるための重み値の分布の幅が、照射光の輝度値に応じて適切に設定される。これにより、高精度な認識処理が可能となる。
 この他、本技術が適用可能なアプリケーションは限定されない。
In the above, the shape restoration that mainly generates a 3D model of the object has been described. The present technology may be applied to any application using the depth value without being limited to this. For example, in face recognition and non-contact gesture recognition, processing for recognizing the shape of a face or hand in real space is performed. At this time, the width of the distribution of the weight values for combining the plurality of depth maps is appropriately set according to the brightness value of the irradiation light. This enables highly accurate recognition processing.
In addition, the applications to which this technology can be applied are not limited.
 上記ではユーザにより操作されるモバイル端末等のコンピュータにより、本技術に係る情報処理方法が実行される場合を説明した。しかしながらユーザが操作するコンピュータとネットワーク等を介して通信可能な他のコンピュータとにより、本技術に係る情報処理方法、及びプログラムが実行されてもよい。 In the above, the case where the information processing method according to the present technology is executed by a computer such as a mobile terminal operated by the user has been described. However, the information processing method and the program according to the present technology may be executed by a computer operated by the user and another computer capable of communicating via a network or the like.
 すなわち本技術に係る情報処理方法、及びプログラムは、単体のコンピュータにより構成されたコンピュータシステムのみならず、複数のコンピュータが連動して動作するコンピュータシステムにおいても実行可能である。なお本開示において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれもシステムである。 That is, the information processing method and program according to the present technology can be executed not only in a computer system composed of a single computer but also in a computer system in which a plurality of computers operate in conjunction with each other. In the present disclosure, the system means a set of a plurality of components (devices, modules (parts), etc.), and it does not matter whether or not all the components are in the same housing. Therefore, a plurality of devices housed in separate housings and connected via a network, and one device in which a plurality of modules are housed in one housing are both systems.
 コンピュータシステムによる本技術に係る情報処理方法、及びプログラムの実行は、例えば、デプス値の取得、及びデプス値に基づく対象部位までの距離パラメータに関する対象部位を基準とした重み値の設定等が、単体のコンピュータにより実行される場合、及び各処理が異なるコンピュータにより実行される場合の両方を含む。また所定のコンピュータによる各処理の実行は、当該処理の一部または全部を他のコンピュータに実行させその結果を取得することを含む。 The information processing method and program execution related to this technology by a computer system are, for example, acquisition of a depth value and setting of a weight value based on the target part regarding the distance parameter to the target part based on the depth value. Includes both when performed by one computer and when each process is performed by a different computer. Further, the execution of each process by a predetermined computer includes having another computer execute a part or all of the process and acquiring the result.
 すなわち本技術に係る情報処理方法及びプログラムは、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成にも適用することが可能である。 That is, the information processing method and program related to this technology can be applied to the configuration of cloud computing in which one function is shared by a plurality of devices via a network and processed jointly.
 以上説明した本技術に係る特徴部分のうち、少なくとも2つの特徴部分を組み合わせることも可能である。すなわち各実施形態で説明した種々の特徴部分は、各実施形態の区別なく、任意に組み合わされてもよい。また上記で記載した種々の効果は、あくまで例示であって限定されるものではなく、また他の効果が発揮されてもよい。 It is also possible to combine at least two feature parts among the feature parts related to the present technology described above. That is, the various characteristic portions described in each embodiment may be arbitrarily combined without distinction between the respective embodiments. Further, the various effects described above are merely exemplary and not limited, and other effects may be exhibited.
 本開示において、「同じ」「等しい」「直交」等は、「実質的に同じ」「実質的に等しい」「実質的に直交」等を含む概念とする。例えば「完全に同じ」「完全に等しい」「完全に直交」等を基準とした所定の範囲(例えば±10%の範囲)に含まれる状態も含まれる。 In the present disclosure, "same", "equal", "orthogonal", etc. are concepts including "substantially the same", "substantially equal", "substantially orthogonal", and the like. For example, a state included in a predetermined range (for example, a range of ± 10%) based on "exactly the same", "exactly equal", "exactly orthogonal", etc. is also included.
 なお、本技術は以下のような構成も採ることができる。
(1)ToF方式により、照射光が照射された実オブジェクトの対象部位のデプス値を取得する取得部と、
 前記対象部位で反射された前記照射光の輝度値が大きいほど、前記デプス値に基づく前記対象部位までの距離パラメータに関し、前記対象部位を基準とした重み値の分布の幅を狭く設定する設定部と
 を具備する情報処理装置。
(2)(1)に記載の情報処理装置であって、
 前記取得部は、前記デプス値がマッピングされたデプスマップを取得し、
 さらに、前記デプスマップに基いて前記実オブジェクトの3Dモデルを生成するモデル生成部を具備する
 情報処理装置。
(3)(2)に記載の情報処理装置であって、
 前記モデル生成部は、前記実オブジェクトを含む空間を分割する複数のボクセルのそれぞれについて、前記ボクセルと前記対象部位との距離を表す前記距離パラメータを前記デプス値に基いて算出し、前記距離パラメータに基いて前記3Dモデルを生成し、
 前記設定部は、前記複数のボクセルのそれぞれに前記重み値を設定する
 情報処理装置。
(4)(3)に記載の情報処理装置であって、
 前記モデル生成部は、前記重み値に基づく前記複数のボクセルそれぞれの前記距離パラメータの重み付き和に基づいて、前記複数のボクセルに対応する各デプスマップを統合する
 情報処理装置。
(5)(3)又は(4)に記載の情報処理装置であって、
 前記設定部は、前記重み値の分布が前記対象部位でピークとなる正規分布となるように、前記複数のボクセルのそれぞれに前記重み値を設定する
 情報処理装置。
(6)(3)から(5)のうちいずれか1つに記載の情報処理装置であって、
 前記照射光は、赤外光であり、
 前記設定部は、前記対象部位の前記デプス値のノイズレベルをσとし、前記対象部位で反射された前記赤外光の輝度値をIとし、予め設定された第1の係数をAとし、予め設定された第2の係数をBとして、以下の式(1)に従って前記ノイズレベルを算出する
Figure JPOXMLDOC01-appb-M000008
 情報処理装置。
(7)(6)に記載の情報処理装置であって、
 前記取得部は、テストオブジェクトを同一位置から計測した複数のデプスマップと、前記複数のデプスマップに対応する複数の赤外画像とを取得し、
 さらに、前記複数のデプスマップと前記複数の赤外画像とに基いて、前記第1の係数(A)及び前記第2の係数(B)を算出する較正処理部を具備する
 情報処理装置。
(8)(7)に記載の情報処理装置であって、
 前記較正処理部は、前記複数の赤外画像の画素ごとに輝度値の平均値を算出し、前記複数のデプスマップの画素ごとに前記デプス値のノイズレベルとして前記デプス値の標準偏差を算出し、前記輝度値の平均値と前記デプス値の標準偏差との分布に前記式(1)をフィッティングすることで、前記第1の係数(A)及び前記第2の係数(B)を算出する
 情報処理装置。
(9)(3)から(8)のうちいずれか1つに記載の情報処理装置であって、
 前記距離パラメータは、前記デプス値の検出方向における前記ボクセルと前記対象部位との距離を、閾値で正規化した距離であり、
 前記モデル生成部は、前記デプス値の検出方向における前記ボクセルと前記対象部位との距離が、前記閾値以下である前記ボクセルについて前記距離パラメータを算出する
 情報処理装置。
(10)(9)に記載の情報処理装置であって、
 前記設定部は、前記ボクセルの位置座標をvとし、前記デプス値の検出方向における前記ボクセルと前記対象部位との距離をD(v)とし、前記ボクセルに設定される前記重み値をW(v)とし、前記対象部位の前記デプス値の前記ノイズレベルをσとし、予め設定された調整係数をδとして、以下の式(2)に従って前記重み値を設定する
Figure JPOXMLDOC01-appb-M000009
 情報処理装置。
(11)(1)から(10)のうちいずれか1つに記載の情報処理装置であって、
 前記取得部は、前記対象部位で反射された前記照射光を検出するToFセンサの出力に基いて前記デプス値を算出し、
 前記設定部は、前記ToFセンサから前記対象部位に向かう検出ベクトルと前記対象部位の表面との角度に応じて、前記重み値を調整する
 情報処理装置。
(12)(11)に記載の情報処理装置であって、
 前記設定部は、前記対象部位の表面における法線ベクトルと前記検出ベクトルとの内積に比例するように前記重み値を設定する
 情報処理装置。
(13)(1)から(12)のうちいずれか1つに記載の情報処理装置であって、
 前記設定部は、前記対象部位で反射された前記照射光の輝度値に基いて、前記デプス値のノイズレベルを算出し、前記ノイズレベルに基いて前記重み値の分布の幅を設定する
 情報処理装置。
(14)(1)から(13)のうちいずれか1つに記載の情報処理装置であって、
 前記取得部は、ユーザが携帯する装置に設けられたToFセンサの出力に基いて前記デプス値を算出する
 情報処理装置。
(15)(1)から(13)のうちいずれか1つに記載の情報処理装置であって、
 前記取得部は、前記実オブジェクトを囲むように設けられた複数のToFセンサの出力に基いて前記デプス値を算出する
 情報処理装置。
(16)(1)から(13)のうちいずれか1つに記載の情報処理装置であって、
 前記実オブジェクトは、回転可能に配置され、
 前記取得部は、回転する前記実オブジェクトを撮影するToFセンサの出力に基いて前記デプス値を算出する
 情報処理装置。
(17)(1)から(16)のうちいずれか1つに記載の情報処理装置であって、
 前記実オブジェクトは、人間の顔である
 情報処理装置。
(18)ToF方式により、照射光が照射された実オブジェクトの対象部位のデプス値を取得し、
 前記対象部位で反射された前記照射光の輝度値が大きいほど、前記デプス値に基づく前記対象部位までの距離パラメータに関し、前記対象部位を基準とした重み値の分布の幅を狭く設定する
 ことをコンピュータシステムが実行する情報処理方法。
(19)ToF方式により、照射光が照射された実オブジェクトの対象部位のデプス値を取得するステップと、
 前記対象部位で反射された前記照射光の輝度値が大きいほど、前記デプス値に基づく前記対象部位までの距離パラメータに関し、前記対象部位を基準とした重み値の分布の幅を狭く設定するステップと
 を実行させるプログラムが記録されているコンピュータが読み取り可能な記録媒体。
In addition, this technology can also adopt the following configurations.
(1) An acquisition unit that acquires the depth value of the target part of the real object irradiated with the irradiation light by the ToF method, and the acquisition unit.
The larger the brightness value of the irradiation light reflected by the target portion, the narrower the width of the distribution of the weight value with respect to the target portion with respect to the distance parameter to the target portion based on the depth value. An information processing device equipped with.
(2) The information processing apparatus according to (1).
The acquisition unit acquires a depth map to which the depth value is mapped, and obtains the depth map.
Further, an information processing apparatus including a model generation unit that generates a 3D model of the real object based on the depth map.
(3) The information processing apparatus according to (2).
The model generation unit calculates the distance parameter representing the distance between the voxel and the target site for each of the plurality of voxels that divide the space including the real object based on the depth value, and uses the distance parameter as the distance parameter. Based on the above 3D model,
The setting unit is an information processing device that sets the weight value for each of the plurality of voxels.
(4) The information processing apparatus according to (3).
The model generation unit is an information processing device that integrates each depth map corresponding to the plurality of voxels based on the weighted sum of the distance parameters of each of the plurality of voxels based on the weight values.
(5) The information processing apparatus according to (3) or (4).
The setting unit is an information processing device that sets the weight values for each of the plurality of voxels so that the distribution of the weight values becomes a normal distribution that peaks at the target site.
(6) The information processing apparatus according to any one of (3) to (5).
The irradiation light is infrared light, and is
In the setting unit, the noise level of the depth value of the target portion is σ, the brightness value of the infrared light reflected by the target portion is I, the first coefficient set in advance is A, and the preset portion is set in advance. With the set second coefficient as B, the noise level is calculated according to the following equation (1).
Figure JPOXMLDOC01-appb-M000008
Information processing equipment.
(7) The information processing apparatus according to (6).
The acquisition unit acquires a plurality of depth maps obtained by measuring the test object from the same position and a plurality of infrared images corresponding to the plurality of depth maps.
Further, an information processing apparatus including a calibration processing unit that calculates the first coefficient (A) and the second coefficient (B) based on the plurality of depth maps and the plurality of infrared images.
(8) The information processing apparatus according to (7).
The calibration processing unit calculates the average value of the luminance value for each pixel of the plurality of infrared images, and calculates the standard deviation of the depth value as the noise level of the depth value for each pixel of the plurality of depth maps. Information for calculating the first coefficient (A) and the second coefficient (B) by fitting the equation (1) to the distribution of the average value of the luminance value and the standard deviation of the depth value. Processing device.
(9) The information processing apparatus according to any one of (3) to (8).
The distance parameter is a distance obtained by normalizing the distance between the voxel and the target site in the detection direction of the depth value with a threshold value.
The model generation unit is an information processing device that calculates the distance parameter for the voxel in which the distance between the voxel and the target portion in the detection direction of the depth value is equal to or less than the threshold value.
(10) The information processing apparatus according to (9).
In the setting unit, the position coordinates of the voxel are v, the distance between the voxel and the target portion in the detection direction of the depth value is D (v), and the weight value set in the voxel is W (v). ), The noise level of the depth value of the target portion is σ, the preset adjustment coefficient is δ, and the weight value is set according to the following equation (2).
Figure JPOXMLDOC01-appb-M000009
Information processing equipment.
(11) The information processing apparatus according to any one of (1) to (10).
The acquisition unit calculates the depth value based on the output of the ToF sensor that detects the irradiation light reflected by the target portion.
The setting unit is an information processing device that adjusts the weight value according to the angle between the detection vector toward the target portion from the ToF sensor and the surface of the target portion.
(12) The information processing apparatus according to (11).
The setting unit is an information processing device that sets the weight value in proportion to the inner product of the normal vector and the detection vector on the surface of the target portion.
(13) The information processing apparatus according to any one of (1) to (12).
The setting unit calculates the noise level of the depth value based on the brightness value of the irradiation light reflected by the target portion, and sets the width of the distribution of the weight value based on the noise level. Device.
(14) The information processing apparatus according to any one of (1) to (13).
The acquisition unit is an information processing device that calculates the depth value based on the output of a ToF sensor provided in a device carried by a user.
(15) The information processing apparatus according to any one of (1) to (13).
The acquisition unit is an information processing device that calculates the depth value based on the outputs of a plurality of ToF sensors provided so as to surround the real object.
(16) The information processing apparatus according to any one of (1) to (13).
The real object is rotatably arranged and
The acquisition unit is an information processing device that calculates the depth value based on the output of the ToF sensor that captures the rotating real object.
(17) The information processing apparatus according to any one of (1) to (16).
The real object is an information processing device that is a human face.
(18) By the ToF method, the depth value of the target part of the real object irradiated with the irradiation light is acquired.
The larger the luminance value of the irradiation light reflected by the target site, the narrower the width of the distribution of the weight value with respect to the target site is set with respect to the distance parameter to the target site based on the depth value. Information processing methods performed by computer systems.
(19) A step of acquiring the depth value of the target part of the real object irradiated with the irradiation light by the ToF method, and
As the brightness value of the irradiation light reflected by the target site is larger, the width of the distribution of the weight value with respect to the target site is set narrower with respect to the distance parameter to the target site based on the depth value. A computer-readable recording medium on which the program that runs the program is recorded.
 1…対象物
 2…3Dモデル
 3…デプスマップ
 4…赤外画像
 5…赤外光
 7…ボクセル
 11、211、311…ToFカメラ
 19…記憶部
 20…制御プログラム
 30…コントローラ
 31…データ取得部
 32…較正処理部
 33…ボリュームデータ生成部
 34…モデルデータ生成部
 100…モバイル端末
 200、300…撮影システム
1 ... Object 2 ... 3D model 3 ... Depth map 4 ... Infrared image 5 ... Infrared light 7 ... Voxel 11, 211, 311 ... ToF camera 19 ... Storage unit 20 ... Control program 30 ... Controller 31 ... Data acquisition unit 32 … Calibration processing unit 33… Volume data generation unit 34… Model data generation unit 100… Mobile terminal 200, 300… Shooting system

Claims (19)

  1.  ToF方式により、照射光が照射された実オブジェクトの対象部位のデプス値を取得する取得部と、
     前記対象部位で反射された前記照射光の輝度値が大きいほど、前記デプス値に基づく前記対象部位までの距離パラメータに関し、前記対象部位を基準とした重み値の分布の幅を狭く設定する設定部と
     を具備する情報処理装置。
    An acquisition unit that acquires the depth value of the target part of the real object irradiated with the irradiation light by the ToF method, and the acquisition unit.
    The larger the brightness value of the irradiation light reflected by the target portion, the narrower the width of the distribution of the weight value with respect to the target portion with respect to the distance parameter to the target portion based on the depth value. An information processing device equipped with.
  2.  請求項1に記載の情報処理装置であって、
     前記取得部は、前記デプス値がマッピングされたデプスマップを取得し、
     さらに、前記デプスマップに基いて前記実オブジェクトの3Dモデルを生成するモデル生成部を具備する
     情報処理装置。
    The information processing apparatus according to claim 1.
    The acquisition unit acquires a depth map to which the depth value is mapped, and obtains the depth map.
    Further, an information processing apparatus including a model generation unit that generates a 3D model of the real object based on the depth map.
  3.  請求項2に記載の情報処理装置であって、
     前記モデル生成部は、前記実オブジェクトを含む空間を分割する複数のボクセルのそれぞれについて、前記ボクセルと前記対象部位との距離を表す前記距離パラメータを前記デプス値に基いて算出し、前記距離パラメータに基いて前記3Dモデルを生成し、
     前記設定部は、前記複数のボクセルのそれぞれに前記重み値を設定する
     情報処理装置。
    The information processing apparatus according to claim 2.
    The model generation unit calculates the distance parameter representing the distance between the voxel and the target site for each of the plurality of voxels that divide the space including the real object based on the depth value, and uses the distance parameter as the distance parameter. Based on the above 3D model,
    The setting unit is an information processing device that sets the weight value for each of the plurality of voxels.
  4.  請求項3に記載の情報処理装置であって、
     前記モデル生成部は、前記重み値に基づく前記複数のボクセルそれぞれの前記距離パラメータの重み付き和に基づいて、前記複数のボクセルに対応する各デプスマップを統合する
     情報処理装置。
    The information processing apparatus according to claim 3.
    The model generation unit is an information processing device that integrates each depth map corresponding to the plurality of voxels based on the weighted sum of the distance parameters of each of the plurality of voxels based on the weight values.
  5.  請求項3に記載の情報処理装置であって、
     前記設定部は、前記重み値の分布が前記対象部位でピークとなる正規分布となるように、前記複数のボクセルのそれぞれに前記重み値を設定する
     情報処理装置。
    The information processing apparatus according to claim 3.
    The setting unit is an information processing device that sets the weight values for each of the plurality of voxels so that the distribution of the weight values becomes a normal distribution that peaks at the target site.
  6.  請求項3に記載の情報処理装置であって、
     前記照射光は、赤外光であり、
     前記設定部は、前記対象部位の前記デプス値のノイズレベルをσとし、前記対象部位で反射された前記赤外光の輝度値をIとし、予め設定された第1の係数をAとし、予め設定された第2の係数をBとして、以下の式(1)に従って前記ノイズレベルを算出する
    Figure JPOXMLDOC01-appb-M000001
     情報処理装置。
    The information processing apparatus according to claim 3.
    The irradiation light is infrared light, and is
    In the setting unit, the noise level of the depth value of the target portion is σ, the brightness value of the infrared light reflected by the target portion is I, the first coefficient set in advance is A, and the preset portion is set in advance. With the set second coefficient as B, the noise level is calculated according to the following equation (1).
    Figure JPOXMLDOC01-appb-M000001
    Information processing equipment.
  7.  請求項6に記載の情報処理装置であって、
     前記取得部は、テストオブジェクトを同一位置から計測した複数のデプスマップと、前記複数のデプスマップに対応する複数の赤外画像とを取得し、
     さらに、前記複数のデプスマップと前記複数の赤外画像とに基いて、前記第1の係数(A)及び前記第2の係数(B)を算出する較正処理部を具備する
     情報処理装置。
    The information processing apparatus according to claim 6.
    The acquisition unit acquires a plurality of depth maps obtained by measuring the test object from the same position and a plurality of infrared images corresponding to the plurality of depth maps.
    Further, an information processing apparatus including a calibration processing unit that calculates the first coefficient (A) and the second coefficient (B) based on the plurality of depth maps and the plurality of infrared images.
  8.  請求項7に記載の情報処理装置であって、
     前記較正処理部は、前記複数の赤外画像の画素ごとに輝度値の平均値を算出し、前記複数のデプスマップの画素ごとに前記デプス値のノイズレベルとして前記デプス値の標準偏差を算出し、前記輝度値の平均値と前記デプス値の標準偏差との分布に前記式(1)をフィッティングすることで、前記第1の係数(A)及び前記第2の係数(B)を算出する
     情報処理装置。
    The information processing apparatus according to claim 7.
    The calibration processing unit calculates the average value of the luminance value for each pixel of the plurality of infrared images, and calculates the standard deviation of the depth value as the noise level of the depth value for each pixel of the plurality of depth maps. Information for calculating the first coefficient (A) and the second coefficient (B) by fitting the equation (1) to the distribution of the average value of the luminance value and the standard deviation of the depth value. Processing device.
  9.  請求項3に記載の情報処理装置であって、
     前記距離パラメータは、前記デプス値の検出方向における前記ボクセルと前記対象部位との距離を、閾値で正規化した距離であり、
     前記モデル生成部は、前記デプス値の検出方向における前記ボクセルと前記対象部位との距離が、前記閾値以下である前記ボクセルについて前記距離パラメータを算出する
     情報処理装置。
    The information processing apparatus according to claim 3.
    The distance parameter is a distance obtained by normalizing the distance between the voxel and the target site in the detection direction of the depth value with a threshold value.
    The model generation unit is an information processing device that calculates the distance parameter for the voxel in which the distance between the voxel and the target portion in the detection direction of the depth value is equal to or less than the threshold value.
  10.  請求項9に記載の情報処理装置であって、
     前記設定部は、前記ボクセルの位置座標をvとし、前記デプス値の検出方向における前記ボクセルと前記対象部位との距離をD(v)とし、前記ボクセルに設定される前記重み値をW(v)とし、前記対象部位の前記デプス値の前記ノイズレベルをσとし、予め設定された調整係数をδとして、以下の式(2)に従って前記重み値を設定する
    Figure JPOXMLDOC01-appb-M000002
     情報処理装置。
    The information processing apparatus according to claim 9.
    In the setting unit, the position coordinates of the voxel are v, the distance between the voxel and the target portion in the detection direction of the depth value is D (v), and the weight value set in the voxel is W (v). ), The noise level of the depth value of the target portion is σ, the preset adjustment coefficient is δ, and the weight value is set according to the following equation (2).
    Figure JPOXMLDOC01-appb-M000002
    Information processing equipment.
  11.  請求項1に記載の情報処理装置であって、
     前記取得部は、前記対象部位で反射された前記照射光を検出するToFセンサの出力に基いて前記デプス値を算出し、
     前記設定部は、前記ToFセンサから前記対象部位に向かう検出ベクトルと前記対象部位の表面との角度に応じて、前記重み値を調整する
     情報処理装置。
    The information processing apparatus according to claim 1.
    The acquisition unit calculates the depth value based on the output of the ToF sensor that detects the irradiation light reflected by the target portion.
    The setting unit is an information processing device that adjusts the weight value according to the angle between the detection vector toward the target portion from the ToF sensor and the surface of the target portion.
  12.  請求項11に記載の情報処理装置であって、
     前記設定部は、前記対象部位の表面における法線ベクトルと前記検出ベクトルとの内積に比例するように前記重み値を設定する
     情報処理装置。
    The information processing apparatus according to claim 11.
    The setting unit is an information processing device that sets the weight value in proportion to the inner product of the normal vector and the detection vector on the surface of the target portion.
  13.  請求項1に記載の情報処理装置であって、
     前記設定部は、前記対象部位で反射された前記照射光の輝度値に基いて、前記デプス値のノイズレベルを算出し、前記ノイズレベルに基いて前記重み値の分布の幅を設定する
     情報処理装置。
    The information processing apparatus according to claim 1.
    The setting unit calculates the noise level of the depth value based on the brightness value of the irradiation light reflected by the target portion, and sets the width of the distribution of the weight value based on the noise level. Device.
  14.  請求項1に記載の情報処理装置であって、
     前記取得部は、ユーザが携帯する装置に設けられたToFセンサの出力に基いて前記デプス値を算出する
     情報処理装置。
    The information processing apparatus according to claim 1.
    The acquisition unit is an information processing device that calculates the depth value based on the output of a ToF sensor provided in a device carried by a user.
  15.  請求項1に記載の情報処理装置であって、
     前記取得部は、前記実オブジェクトを囲むように設けられた複数のToFセンサの出力に基いて前記デプス値を算出する
     情報処理装置。
    The information processing apparatus according to claim 1.
    The acquisition unit is an information processing device that calculates the depth value based on the outputs of a plurality of ToF sensors provided so as to surround the real object.
  16.  請求項1に記載の情報処理装置であって、
     前記実オブジェクトは、回転可能に配置され、
     前記取得部は、回転する前記実オブジェクトを撮影するToFセンサの出力に基いて前記デプス値を算出する
     情報処理装置。
    The information processing apparatus according to claim 1.
    The real object is rotatably arranged and
    The acquisition unit is an information processing device that calculates the depth value based on the output of the ToF sensor that captures the rotating real object.
  17.  請求項1に記載の情報処理装置であって、
     前記実オブジェクトは、人間の顔である
     情報処理装置。
    The information processing apparatus according to claim 1.
    The real object is an information processing device that is a human face.
  18.  ToF方式により、照射光が照射された実オブジェクトの対象部位のデプス値を取得し、
     前記対象部位で反射された前記照射光の輝度値が大きいほど、前記デプス値に基づく前記対象部位までの距離パラメータに関し、前記対象部位を基準とした重み値の分布の幅を狭く設定する
     ことをコンピュータシステムが実行する情報処理方法。
    By the ToF method, the depth value of the target part of the real object irradiated with the irradiation light is acquired.
    The larger the luminance value of the irradiation light reflected by the target site, the narrower the width of the distribution of the weight value with respect to the target site is set with respect to the distance parameter to the target site based on the depth value. Information processing methods performed by computer systems.
  19.  ToF方式により、照射光が照射された実オブジェクトの対象部位のデプス値を取得するステップと、
     前記対象部位で反射された前記照射光の輝度値が大きいほど、前記デプス値に基づく前記対象部位までの距離パラメータに関し、前記対象部位を基準とした重み値の分布の幅を狭く設定するステップと
     を実行させるプログラムが記録されているコンピュータが読み取り可能な記録媒体。
    The step of acquiring the depth value of the target part of the real object irradiated with the irradiation light by the ToF method, and
    As the brightness value of the irradiation light reflected by the target site is larger, the width of the distribution of the weight value with respect to the target site is set narrower with respect to the distance parameter to the target site based on the depth value. A computer-readable recording medium on which the program that runs the program is recorded.
PCT/JP2021/025736 2020-07-21 2021-07-08 Information processing device, information processing method, and computer-readable recording medium WO2022019128A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020-124369 2020-07-21
JP2020124369A JP2022021027A (en) 2020-07-21 2020-07-21 Information processing device, information processing method, and computer readable recording medium

Publications (1)

Publication Number Publication Date
WO2022019128A1 true WO2022019128A1 (en) 2022-01-27

Family

ID=79728743

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/025736 WO2022019128A1 (en) 2020-07-21 2021-07-08 Information processing device, information processing method, and computer-readable recording medium

Country Status (2)

Country Link
JP (1) JP2022021027A (en)
WO (1) WO2022019128A1 (en)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011123071A (en) * 2009-12-10 2011-06-23 Honda Motor Co Ltd Image capturing device, method for searching occlusion area, and program
JP2012078942A (en) * 2010-09-30 2012-04-19 Toshiba Corp Depth correction device and method
JP5906258B2 (en) * 2011-01-31 2016-04-20 マイクロソフト テクノロジー ライセンシング,エルエルシー Reproduction of 3D environment
WO2018216341A1 (en) * 2017-05-22 2018-11-29 ソニー株式会社 Information processing device, information processing method, and program

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011123071A (en) * 2009-12-10 2011-06-23 Honda Motor Co Ltd Image capturing device, method for searching occlusion area, and program
JP2012078942A (en) * 2010-09-30 2012-04-19 Toshiba Corp Depth correction device and method
JP5906258B2 (en) * 2011-01-31 2016-04-20 マイクロソフト テクノロジー ライセンシング,エルエルシー Reproduction of 3D environment
WO2018216341A1 (en) * 2017-05-22 2018-11-29 ソニー株式会社 Information processing device, information processing method, and program

Also Published As

Publication number Publication date
JP2022021027A (en) 2022-02-02

Similar Documents

Publication Publication Date Title
US11210804B2 (en) Methods, devices and computer program products for global bundle adjustment of 3D images
CN107836012B (en) Projection image generation method and device, and mapping method between image pixel and depth value
CN110462686B (en) Apparatus and method for obtaining depth information from a scene
US8699005B2 (en) Indoor surveying apparatus
US9460517B2 (en) Photogrammetric methods and devices related thereto
CN111344644B (en) Techniques for motion-based automatic image capture
US20170134713A1 (en) Image calibrating, stitching and depth rebuilding method of a panoramic fish-eye camera and a system thereof
CN106643699A (en) Space positioning device and positioning method in VR (virtual reality) system
TW201709718A (en) Method and apparatus for displaying a light field based image on a user&#39;s device, and corresponding computer program product
WO2018227576A1 (en) Method and system for detecting ground shape, method for drone landing, and drone
JP2013539147A5 (en)
CN110419208B (en) Imaging system, imaging control method, image processing apparatus, and computer readable medium
WO2015068470A1 (en) 3d-shape measurement device, 3d-shape measurement method, and 3d-shape measurement program
US11012677B1 (en) Systems and methods for correcting rolling shutter artifacts
CN110377148A (en) Computer-readable medium, the method for training object detection algorithm and training equipment
US10388069B2 (en) Methods and systems for light field augmented reality/virtual reality on mobile devices
CN112312113A (en) Method, device and system for generating three-dimensional model
Wan et al. A study in 3D-reconstruction using kinect sensor
US20210118160A1 (en) Methods, devices and computer program products for 3d mapping and pose estimation of 3d images
KR20210145734A (en) Information processing device, information processing method, and program
Wang et al. Measurement and analysis of depth resolution using active stereo cameras
WO2020019175A1 (en) Image processing method and apparatus, and photographing device and unmanned aerial vehicle
WO2022019128A1 (en) Information processing device, information processing method, and computer-readable recording medium
US11069121B2 (en) Methods, devices and computer program products for creating textured 3D images
US11516452B2 (en) Systems and methods for temporal corrections for parallax reprojection

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21845780

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21845780

Country of ref document: EP

Kind code of ref document: A1