WO2022123919A1 - Information processing device, information processing method, and information processing program - Google Patents

Information processing device, information processing method, and information processing program Download PDF

Info

Publication number
WO2022123919A1
WO2022123919A1 PCT/JP2021/038741 JP2021038741W WO2022123919A1 WO 2022123919 A1 WO2022123919 A1 WO 2022123919A1 JP 2021038741 W JP2021038741 W JP 2021038741W WO 2022123919 A1 WO2022123919 A1 WO 2022123919A1
Authority
WO
WIPO (PCT)
Prior art keywords
information processing
depth map
map
difference
depth
Prior art date
Application number
PCT/JP2021/038741
Other languages
French (fr)
Japanese (ja)
Inventor
健志 後藤
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Priority to JP2022568086A priority Critical patent/JPWO2022123919A1/ja
Priority to CN202180081594.1A priority patent/CN116615748A/en
Publication of WO2022123919A1 publication Critical patent/WO2022123919A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/174Segmentation; Edge detection involving the use of two or more images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/521Depth or shape recovery from laser ranging, e.g. using interferometry; from the projection of structured light
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/593Depth or shape recovery from multiple images from stereo images

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Optics & Photonics (AREA)
  • Image Analysis (AREA)

Abstract

Provided are an information processing device, an information processing method, and an information processing program that can extract a region in an image or a depth map of a subject, even when colors are the same or similar. The information processing device comprises: a difference map generation unit that generates a difference map from a first depth map of a subject and a second depth map of the subject, said depth maps having been acquired using a ToF sensor; and a region extraction unit that extracts a region in the first depth map on the basis of the difference map.

Description

情報処理装置、情報処理方法、情報処理プログラムInformation processing equipment, information processing method, information processing program
 本技術は、情報処理装置、情報処理方法、情報処理プログラムに関する。 This technology relates to information processing devices, information processing methods, and information processing programs.
 対象物を撮影した画像やデプスマップなどから特定の領域を抽出する種々の技術が提案されている。例えば、RGB(Red,Green,Blue)画像が撮影可能ないわゆるRGBカメラを使用することにより色が異なる領域を抽出することができる。 Various techniques have been proposed to extract a specific area from an image of an object or a depth map. For example, by using a so-called RGB camera capable of capturing RGB (Red, Green, Blue) images, it is possible to extract regions having different colors.
また、領域の抽出のためにToF(Time Of Flight)と呼ばれる技術を用いることもできる。ToFと呼ばれる、対象物に対して照射したパルス光の反射時間を画素毎に計測することで距離情報(デプス情報)を取得する技術がある。 Further, a technique called ToF (Time Of Flight) can be used for extracting the region. There is a technique called ToF, which acquires distance information (depth information) by measuring the reflection time of pulsed light applied to an object for each pixel.
 ToFについては、距離情報(デプス情報)をより正確に取得するために、2つの画像を利用してステレオ方式に従って算出されるステレオ距離とToFを用いて対象物の正確な距離情報の生成を行う技術が提案されている(特許文献1)。 For ToF, in order to acquire distance information (depth information) more accurately, the stereo distance calculated according to the stereo method using two images and the accurate distance information of the object are generated using ToF. A technique has been proposed (Patent Document 1).
WO2017/159312号公報WO2017 / 159312 Gazette
 しかし、RGBカメラを用いても、対象物の画像やデプスマップなどから異なる領域であるが色が同じまたは色が似ている領域を正確に抽出できないという課題がある。また、ToFによる距離情報生成の精度を向上させても、同様の課題がある。 However, even if an RGB camera is used, there is a problem that it is not possible to accurately extract areas that are different from the image of the object, depth map, etc., but have the same or similar colors. Further, even if the accuracy of distance information generation by ToF is improved, there is a similar problem.
 本技術はこのような点に鑑みなされたものであり、対象物の画像やデプスマップ中における、色が同じまたは色が似ているが領域を抽出することができる情報処理装置、情報処理方法、情報処理プログラムを提供することを目的とする。 This technique has been made in view of these points, and is an information processing device, an information processing method, and an information processing device capable of extracting an area having the same or similar colors in an image of an object or a depth map. The purpose is to provide an information processing program.
 上述した課題を解決するために、第1の技術は、ToFセンサにより取得された対象物についての第1デプスマップと、対象物についての第2デプスマップとから差分マップを生成する差分マップ生成部と、差分マップに基づいて第1デプスマップ上における領域を抽出する領域抽出部とを備える情報処理装置である。 In order to solve the above-mentioned problems, the first technique is a difference map generator that generates a difference map from a first depth map for an object acquired by a ToF sensor and a second depth map for the object. It is an information processing apparatus including a region extraction unit that extracts an region on a first depth map based on a difference map.
 また、第2の技術は、ToFセンサにより取得された対象物についての第1デプスマップと、対象物についての第2デプスマップとから差分マップを生成し、差分マップに基づいて第1デプスマップ上における領域を抽出する情報処理方法である。 Further, the second technique generates a difference map from the first depth map of the object acquired by the ToF sensor and the second depth map of the object, and on the first depth map based on the difference map. It is an information processing method for extracting the area in.
 さらに、第3の技術は、ToFセンサにより取得された対象物についての第1デプスマップと、対象物についての第2デプスマップとから差分マップを生成し、差分マップに基づいて第1デプスマップ上における領域を抽出する情報処理方法をコンピュータに実行させる情報処理プログラムである。 Further, the third technique generates a difference map from the first depth map for the object acquired by the ToF sensor and the second depth map for the object, and on the first depth map based on the difference map. It is an information processing program that causes a computer to execute an information processing method for extracting an area in.
第1の実施の形態における情報処理システム10の構成を示すブロック図である。It is a block diagram which shows the structure of the information processing system 10 in 1st Embodiment. 第1の実施の形態における情報処理装置100の構成を示すブロック図である。It is a block diagram which shows the structure of the information processing apparatus 100 in 1st Embodiment. 第1の実施の形態における情報処理装置100の機能ブロックの構成を示すブロック図である。It is a block diagram which shows the structure of the functional block of the information processing apparatus 100 in 1st Embodiment. 第1の実施の形態における情報処理装置100の処理を示すフローチャートである。It is a flowchart which shows the process of the information processing apparatus 100 in 1st Embodiment. ヒストグラムにおけるピークの検出の説明図である。It is explanatory drawing of the detection of the peak in a histogram. 第1の実施の形態における表示用画像の例を示す図である。It is a figure which shows the example of the display image in 1st Embodiment. 第2の実施の形態における情報処理装置200の機能ブロックの構成を示すブロック図である。It is a block diagram which shows the structure of the functional block of the information processing apparatus 200 in 2nd Embodiment. 種類特定用のテーブルの例を示す図である。It is a figure which shows the example of the table for type identification. 第2の実施の形態における情報処理装置200の処理を示すフローチャートである。It is a flowchart which shows the process of the information processing apparatus 200 in 2nd Embodiment. ヒストグラムの例を示す図である。It is a figure which shows the example of a histogram. 第2の実施の形態における表示用画像の例を示す図である。It is a figure which shows the example of the display image in 2nd Embodiment. 第3の実施の形態における情報処理システム30の構成を示すブロック図である。It is a block diagram which shows the structure of the information processing system 30 in 3rd Embodiment. 第3の実施の形態における情報処理装置300の機能ブロックの構成を示すブロック図である。It is a block diagram which shows the structure of the functional block of the information processing apparatus 300 in 3rd Embodiment. 3次元形状データの説明図である。It is explanatory drawing of 3D shape data. 第3の実施の形態における情報処理装置300の処理を示すフローチャートである。It is a flowchart which shows the process of the information processing apparatus 300 in 3rd Embodiment. 第3の実施の形態による効果の説明図である。It is explanatory drawing of the effect by the 3rd Embodiment.
 以下、本技術の実施の形態について図面を参照しながら説明する。なお、説明は以下の順序で行う。
<1.第1の実施の形態>
[1-1.情報処理システム10の構成]
[1-2.情報処理装置100の構成]
[1-3.情報処理装置100による処理]
<2.第2の実施の形態>
[2-1.情報処理装置200の構成]
[2-1.情報処理装置200による処理]
<3.第3の実施の形態>
[3-1.情報処理システム30の構成]
[3-2.情報処理装置300の構成]
[3-3.情報処理装置300による処理]
<4.変形例>
Hereinafter, embodiments of the present technology will be described with reference to the drawings. The explanation will be given in the following order.
<1. First Embodiment>
[1-1. Configuration of information processing system 10]
[1-2. Configuration of information processing device 100]
[1-3. Processing by information processing device 100]
<2. Second Embodiment>
[2-1. Configuration of information processing device 200]
[2-1. Processing by information processing device 200]
<3. Third Embodiment>
[3-1. Configuration of information processing system 30]
[3-2. Configuration of information processing device 300]
[3-3. Processing by information processing device 300]
<4. Modification example>
<1.第1の実施の形態>
[1-1.情報処理システム10の構成]
 図1を参照して本技術の第1の実施の形態における情報処理システム10の構成について説明する。情報処理システム10は情報処理装置100、ToFセンサ500、測距センサ600とから構成されている。
<1. First Embodiment>
[1-1. Configuration of information processing system 10]
The configuration of the information processing system 10 in the first embodiment of the present technology will be described with reference to FIG. 1. The information processing system 10 includes an information processing device 100, a ToF sensor 500, and a distance measuring sensor 600.
 情報処理装置100は、ToFセンサ500が生成した対象物についてのデプスマップと、測距センサ600が生成した対象物についての画像やデプスマップに基づいて領域抽出処理を行うものである。 The information processing apparatus 100 performs region extraction processing based on a depth map of an object generated by the ToF sensor 500 and an image or depth map of the object generated by the distance measuring sensor 600.
 対象物とは、情報処理装置100による領域抽出処理の対象となる物であり、区別できる2つ以上の物や、物としては1つであるがその表面に異なる材質、素材、材料(以下、材質等と称する)などで構成されている複数の領域が存在する物、などである。 The object is an object to be subjected to the area extraction process by the information processing apparatus 100, and is two or more objects that can be distinguished from each other, or one object but different materials, materials, and materials on the surface thereof (hereinafter referred to as “objects”). It is an object that has a plurality of areas composed of materials (referred to as materials, etc.).
 区別できる2つ以上の物は例えば、スプーンと手(肌)からなる「スプーンを持つ手(肌)」、皿と食べ物からなる「皿に乗った食物」などである。物としては1つであるがその表面に異なる材質等で構成されている複数の領域が存在する物は例えば、金属で構成された先部分(つぼ)と木製の柄で構成されたスプーン、ダンボール箱とそのダンボール箱の材質とは異なる材質で構成されて箱の表面に付された文字や図形や飾り、などである。 Two or more things that can be distinguished are, for example, a "hand (skin) holding a spoon" consisting of a spoon and a hand (skin), and a "food on a plate" consisting of a plate and food. There is only one object, but the surface of the object has multiple areas made of different materials, for example, a tip part (pot) made of metal, a spoon made of a wooden handle, and cardboard. The material of the box and its cardboard box is different from that of the box, and the characters, figures, decorations, etc. attached to the surface of the box.
 なお、物としての名称が同一のものであっても材質等が異なる物は「区別できる2つ以上の物」とする。したがって例えば、木製のスプーンと金属製のスプーンは同じスプーンであるが区別できる2以上の物となる。 Note that items with the same name but different materials, etc. shall be "two or more items that can be distinguished". So, for example, a wooden spoon and a metal spoon are two or more things that are the same but distinguishable.
 情報処理装置100によって2つ以上の領域が抽出される場合とは、物が2つ以上あり、それぞれの物が領域として抽出される場合もあれば、物としては1つであるがその物の表面に2つ以上の区別できる領域が存在する場合もある。さらに、物が2つ以上あり、かつ、その物の表面に2つ以上の区別できる領域が存在する場合もある。 When two or more areas are extracted by the information processing apparatus 100, there are cases where there are two or more objects and each object is extracted as an area, and there is one object but the object. There may be more than one distinguishable area on the surface. Further, there may be two or more objects and two or more distinguishable areas on the surface of the object.
 ToFセンサ500は、情報処理装置100による処理の対象である対象物までの距離情報(第1デプスマップ)を取得する、ToFを利用したセンサである。ToFにはiToF(indirect Time of Flight)とdToF(direct Time of Flight)という2つの方式があるが、ToFセンサ500はどちらの方式のものでもよい。iToFとは、周期信号の位相差からデプスを求める方式である。dToFとは、光源から照射したパルスレーザを送出した時刻と返ってきた時刻を計測してその差分からデプスを求める方式である。 The ToF sensor 500 is a sensor using ToF that acquires distance information (first depth map) to an object to be processed by the information processing apparatus 100. There are two types of ToF, iToF (indirect Time of Flight) and dToF (direct Time of Flight), and the ToF sensor 500 may use either method. iToF is a method of obtaining the depth from the phase difference of a periodic signal. dToF is a method of measuring the time when a pulsed laser irradiated from a light source is sent and the time when it is returned, and obtaining the depth from the difference.
 ToFにおいてはマルチパスと呼ばれる現象が生じる。ToFは光が物に反射して戻ってきてそれを受信するまでの時間を測定するが、物によっては光が物体表面で全反射せずに、一部は物の内部に入り込み、内部で反射を繰り返してからToFセンサ500に光が戻る。よって、物体によってはToFセンサ500が光を受信するまでの時間が長くなり、距離が実際よりも遠く検出される。この物の反射率は、物の材質等によって異なる。 In ToF, a phenomenon called multipath occurs. ToF measures the time it takes for light to be reflected by an object and returned to be received, but depending on the object, the light may not be totally reflected on the surface of the object, but part of it may enter the inside of the object and be reflected inside. After repeating the above steps, the light returns to the ToF sensor 500. Therefore, depending on the object, it takes a long time for the ToF sensor 500 to receive the light, and the distance is detected farther than it actually is. The reflectance of this object varies depending on the material of the object and the like.
 ユーザは情報処理装置100による処理を行う前にToFセンサ500を用いて対象物についての第1デプスマップを生成しておく必要がある。 The user needs to generate a first depth map for the object by using the ToF sensor 500 before performing the processing by the information processing apparatus 100.
 測距センサ600は、第1RGBカメラ610と第2RGBカメラ620とから構成されたRGBステレオカメラである。第1RGBカメラ610はRGB(Red,Green,Blue)画像が撮影可能なカメラであり、特許請求の範囲における第1撮像装置に相当する。第1RGBカメラ610の撮影により取得された第1RGB画像が特許請求の範囲における第1画像に相当する。 The distance measuring sensor 600 is an RGB stereo camera composed of a first RGB camera 610 and a second RGB camera 620. The first RGB camera 610 is a camera capable of capturing RGB (Red, Green, Blue) images, and corresponds to the first imaging device within the scope of claims. The first RGB image acquired by taking a picture of the first RGB camera 610 corresponds to the first image in the claims.
 第2RGBカメラ620は、RGB(Red,Green,Blue)画像が撮影可能なカメラであり、特許請求の範囲における第2撮像装置に相当する。第2RGBカメラ620の撮影により取得された第2RGB画像が特許請求の範囲における第2画像に相当する。以下の説明において第1RGBカメラ610と第2RGBカメラ620を区別して記載する必要がある場合を除いて、測距センサ600として説明を行う。 The second RGB camera 620 is a camera capable of capturing RGB (Red, Green, Blue) images, and corresponds to the second imaging device within the scope of claims. The second RGB image acquired by the shooting of the second RGB camera 620 corresponds to the second image in the claims. In the following description, the distance measuring sensor 600 will be described unless it is necessary to distinguish between the first RGB camera 610 and the second RGB camera 620.
 ユーザは情報処理装置100による処理を行う前に測距センサ600を用いて対象物についての第1RGB画像および第2RGB画像を取得しておく必要がある。 The user needs to acquire the first RGB image and the second RGB image of the object by using the distance measuring sensor 600 before performing the processing by the information processing apparatus 100.
[1-2.情報処理装置100の構成]
 次に情報処理装置100の構成について説明する。情報処理装置100は制御部150、記憶部160、インターフェース170、表示部180を備えて構成されている。
[1-2. Configuration of information processing device 100]
Next, the configuration of the information processing apparatus 100 will be described. The information processing apparatus 100 includes a control unit 150, a storage unit 160, an interface 170, and a display unit 180.
 制御部150は、CPU(Central Processing Unit)、RAM(Random Access Memory)およびROM(Read Only Memory)などから構成されている。CPUがROMに記憶されたプログラムに従い様々な処理を実行してコマンドの発行を行うことによって情報処理装置100の全体および各部の制御を行う。 The control unit 150 is composed of a CPU (Central Processing Unit), a RAM (Random Access Memory), a ROM (Read Only Memory), and the like. The CPU executes various processes according to the program stored in the ROM and issues commands to control the entire information processing apparatus 100 and each part thereof.
 記憶部160は、例えば、ハードディスク、フラッシュメモリなどの大容量記憶媒体である。記憶部160は情報処理装置100における処理で使用するプログラム、キャリブレーション用データ、テーブルなどを保存している。 The storage unit 160 is a large-capacity storage medium such as a hard disk or a flash memory. The storage unit 160 stores programs, calibration data, tables, and the like used in processing in the information processing apparatus 100.
 インターフェース170は、ToFセンサ500および測距センサ600との通信を行うインターフェースである。インターフェース170は、有線または無線の通信インターフェースを含みうる。また、より具体的には、有線または無線の通信インターフェースは、3TTEなどのセルラー通信、Wi-Fi、Bluetooth(登録商標)、NFC(Near Field Communication)、イーサネット(登録商標)、HDMI(登録商標)(High-Definition Multimedia Interface)、USB(Universal Serial Bus)などを含みうる。また、情報処理装置100とToFセンサ500および測距センサ600がハードウェア的に接続される場合、インターフェース170は、装置間の接続端子や、装置内のバスなどを含みうる。また、情報処理装置100が複数の装置に分散して実現される場合、インターフェース170は、それぞれの装置のための異なる種類のインターフェースを含みうる。例えば、インターフェース170は、通信インターフェースと装置内のインターフェースとの両方を含んでもよい。 The interface 170 is an interface for communicating with the ToF sensor 500 and the distance measuring sensor 600. The interface 170 may include a wired or wireless communication interface. More specifically, the wired or wireless communication interface is cellular communication such as 3TTE, Wi-Fi, Bluetooth (registered trademark), NFC (Near Field Communication), Ethernet (registered trademark), HDMI (registered trademark). (High-Definition Multimedia Interface), USB (Universal Serial Bus), etc. may be included. Further, when the information processing device 100, the ToF sensor 500, and the distance measuring sensor 600 are connected in terms of hardware, the interface 170 may include a connection terminal between the devices, a bus in the device, and the like. Also, if the information processing device 100 is distributed across a plurality of devices, the interface 170 may include different types of interfaces for each device. For example, the interface 170 may include both a communication interface and an in-device interface.
 表示部180は、例えば、LCD(Liquid Crystal Display)、PDP(Plasma Display Panel)、有機EL(Electro Luminescence)パネルなどにより構成される表示用デバイスである。 The display unit 180 is a display device composed of, for example, an LCD (Liquid Crystal Display), a PDP (Plasma Display Panel), an organic EL (Electro Luminescence) panel, or the like.
 図3に示すように情報処理装置100は、デプスマップ生成部101、差分マップ生成部102、領域抽出部103、画像処理部104という機能ブロックを備えるように構成されている。これらの各部は制御部150により実現される機能である。また、各部とToFセンサ500および測距センサ600との間のデータや情報の送受信はインターフェース170を用いて行われる。 As shown in FIG. 3, the information processing apparatus 100 is configured to include functional blocks such as a depth map generation unit 101, a difference map generation unit 102, an area extraction unit 103, and an image processing unit 104. Each of these units is a function realized by the control unit 150. Further, data and information are transmitted and received between each unit and the ToF sensor 500 and the distance measuring sensor 600 by using the interface 170.
 デプスマップ生成部101は、測距センサ600を構成する第1RGBカメラ610で撮影された第1RGB画像と、第2RGBカメラ620で撮影された第2RGB画像とを用いてパターンマッチングなどによる三角測量を行うことにより第2デプスマップを生成する。 The depth map generation unit 101 performs triangulation by pattern matching or the like using the first RGB image taken by the first RGB camera 610 constituting the distance measuring sensor 600 and the second RGB image taken by the second RGB camera 620. This will generate a second depth map.
 差分マップ生成部102は、ToFセンサ500により生成された第1デプスマップとデプスマップ生成部101により生成された第2デプスマップとを用いて差分マップを生成する。 The difference map generation unit 102 generates a difference map using the first depth map generated by the ToF sensor 500 and the second depth map generated by the depth map generation unit 101.
 領域抽出部103は、第1デプスマップと差分マップを用いて第1デプスマップ上における領域を抽出する。 The area extraction unit 103 extracts an area on the first depth map using the first depth map and the difference map.
 画像処理部104は、領域抽出部103による抽出結果を示すための表示用画像を生成する。 The image processing unit 104 generates a display image for showing the extraction result by the area extraction unit 103.
 情報処理装置100は以上のようにして構成されている。なお、情報処理装置100における機能ブロックはプログラムの実行によって実現されてもよく、そのプログラムの実行によりパーソナルコンピュータ、タブレット端末、スマートフォン、サーバ装置などが情報処理装置100として機能を備えるようにしてもよい。そのプログラムは予めパーソナルコンピュータなどの装置にインストールされていてもよいし、ダウンロード、記憶媒体などで配布されて、ユーザが自らインストールするようにしてもよい。 The information processing device 100 is configured as described above. The functional block in the information processing apparatus 100 may be realized by executing a program, and the execution of the program may cause a personal computer, a tablet terminal, a smartphone, a server apparatus, or the like to have a function as the information processing apparatus 100. .. The program may be installed in a device such as a personal computer in advance, or may be distributed by download, storage medium, or the like so that the user can install it by himself / herself.
[1-3.情報処理装置100による処理]
 次に図4のフローチャートを参照して情報処理装置100による処理について説明する。
[1-3. Processing by information processing device 100]
Next, processing by the information processing apparatus 100 will be described with reference to the flowchart of FIG.
 まずステップS101で、情報処理装置100はToFセンサ500から対象物についての第1デプスマップを取得する。 First, in step S101, the information processing apparatus 100 acquires the first depth map of the object from the ToF sensor 500.
 また、ステップS102で、情報処理装置100は測距センサ600から第1RGB画像および第2RGB画像を取得する。なお、ステップS101とステップS102は必ずしもこの順序で行われる必要はなく、逆の順序でもよいし、ほぼ同時でもよい。 Further, in step S102, the information processing apparatus 100 acquires the first RGB image and the second RGB image from the ranging sensor 600. It should be noted that steps S101 and S102 do not necessarily have to be performed in this order, and may be in the reverse order or may be performed substantially at the same time.
 次にステップS103で、デプスマップ生成部101は第1キャリブレーション用データを用いてパターンマッチングなどによる三角測量を行うことにより第1RGB画像と第2RGB画像とから第2デプスマップを生成する。 Next, in step S103, the depth map generation unit 101 generates a second depth map from the first RGB image and the second RGB image by performing triangulation by pattern matching or the like using the first calibration data.
 第1キャリブレーション用データは第1RGBカメラ610と第2RGBカメラ620の相対位置関係を示すデータである。第1RGBカメラ610と第2RGBカメラ620は視点が違うため、第2デプスマップを生成するためには第1キャリブレーション用データを用いてその視点を一致させる必要がある。 The first calibration data is data showing the relative positional relationship between the first RGB camera 610 and the second RGB camera 620. Since the first RGB camera 610 and the second RGB camera 620 have different viewpoints, it is necessary to match the viewpoints using the first calibration data in order to generate the second depth map.
 また、パターンマッチングを行うためには第1RGBカメラ610と第2RGBカメラ620の歪曲収差(ディストーション)も考慮する必要がある。そのディストーション補正用データも第1キャリブレーション用データに含めておくとよい。 Further, in order to perform pattern matching, it is necessary to consider the distortion of the first RGB camera 610 and the second RGB camera 620. The distortion correction data may be included in the first calibration data.
 なお、第1キャリブレーション用データは予め記憶部160に記憶させておいてもよいし、予め情報処理装置100に保持させておいてもよい。また、外部のサーバなど第1キャリブレーション用データを格納しておき、情報処理装置100がインターフェース170を介してそのサーバにアクセスして読み出すようにしてもよい。 The first calibration data may be stored in the storage unit 160 in advance, or may be stored in the information processing apparatus 100 in advance. Further, the first calibration data such as an external server may be stored, and the information processing apparatus 100 may access and read the server via the interface 170.
 次にステップS104で、差分マップ生成部102は、第1デプスマップと第2デプスマップとに基づいて差分マップを生成する。 Next, in step S104, the difference map generation unit 102 generates a difference map based on the first depth map and the second depth map.
 差分マップの生成においては、まず、第2キャリブレーション用データを用いて第2デプスマップを第1デプスマップに投影して差分マップ生成用マップを生成する。 In the generation of the difference map, first, the second depth map is projected onto the first depth map using the second calibration data to generate the difference map generation map.
 第2キャリブレーション用データはToFセンサ500と測距センサ600の相対位置関係を示すデータである。ToFセンサ500と測距センサ600は別体であり視点が違うため、第2キャリブレーション用データでその視点を一致させて第2デプスマップを第1デプスマップに投影する。そして、第1デプスマップを構成するピクセルごとに差分マップ生成用マップとの差を算出することで差分マップを生成する。 The second calibration data is data showing the relative positional relationship between the ToF sensor 500 and the distance measuring sensor 600. Since the ToF sensor 500 and the distance measuring sensor 600 are separate bodies and have different viewpoints, the viewpoints are matched with the second calibration data and the second depth map is projected onto the first depth map. Then, the difference map is generated by calculating the difference from the difference map generation map for each pixel constituting the first depth map.
 なお、第2キャリブレーション用データは予め記憶部160に記憶させておいてもよいし、予め情報処理装置100に保持させておいてもよい。また、外部のサーバなど第2キャリブレーション用データを格納しておき、情報処理装置100がインターフェース170を介してそのサーバにアクセスして読み出すようにしてもよい。 The second calibration data may be stored in the storage unit 160 in advance, or may be stored in the information processing apparatus 100 in advance. Further, the second calibration data such as an external server may be stored, and the information processing apparatus 100 may access and read the server via the interface 170.
 次にステップS105で、領域抽出部103は差分マップのヒストグラムを生成し、ヒストグラムからピークを検出する。ヒストグラムにおけるピークは例えば図5Aに示すように検出される。ピークは領域ごとに検出される。例えば、対象物が2つの物である場合、ピークは2つ検出される。対象物が1つの物であってもその物の表面に区別できる領域が2つある場合、ピークは2つ検出される。 Next, in step S105, the region extraction unit 103 generates a histogram of the difference map and detects a peak from the histogram. Peaks in the histogram are detected, for example, as shown in FIG. 5A. Peaks are detected in each region. For example, if there are two objects, two peaks will be detected. Even if the object is one object, if there are two distinguishable regions on the surface of the object, two peaks are detected.
 次にステップS106で、領域抽出部103は第1デプスマップを構成する全てのピクセルの中から、ヒストグラムから検出したピークのデプス差を有するピクセルを全て抽出することで領域を抽出する。 Next, in step S106, the area extraction unit 103 extracts an area from all the pixels constituting the first depth map by extracting all the pixels having the depth difference of the peak detected from the histogram.
 または、図5Bに示すように、領域抽出部103はヒストグラムから検出したピークを中心とした所定量の幅に含まれるデプス差を有する全てのピクセルを第1デプスマップ上から抽出することにより領域を抽出する。 Alternatively, as shown in FIG. 5B, the region extraction unit 103 extracts a region from the first depth map by extracting all pixels having a depth difference included in a predetermined amount of width centered on the peak detected from the histogram. Extract.
 ピークを中心とした所定量の幅とは、ToFセンサ500と測距センサ600の性能によるデプスのばらつきや、対象物ごとのデプスのばらつきなどに基づいて設定する幅であり、予め情報処理装置100において設定しておく。所定量の幅に含まれるデプス差を有する全てのピクセルを抽出することによりToFセンサ500と測距センサ600の性能によるデプスのばらつきや、対象物ごとのデプスのばらつきなどに応じて適切に領域を抽出することができる。 The width of a predetermined amount centered on the peak is a width set based on the variation in depth due to the performance of the ToF sensor 500 and the distance measuring sensor 600, the variation in depth for each object, and the like, and is a width set in advance based on the information processing apparatus 100. Set in. By extracting all the pixels having the depth difference included in the width of a predetermined amount, the area can be appropriately defined according to the variation in depth due to the performance of the ToF sensor 500 and the distance measuring sensor 600, the variation in depth for each object, and the like. Can be extracted.
 ピークに基づいて領域の抽出を行うか、ピークを中心とした所定量の幅に基づいて領域の抽出を行うかはユーザが選択できるようにしてもよいし、ToFセンサ500と測距センサ600の性能などに基づいて情報処理装置100が抽出方法を設定するようにしてもよい。 The user may be able to select whether to extract the region based on the peak or the region based on the width of a predetermined amount centered on the peak, or the ToF sensor 500 and the ranging sensor 600 may be selected. The information processing apparatus 100 may set the extraction method based on the performance and the like.
 ToFセンサ500で取得できるデプスは、上述したマルチパスにより対象物の材質等によって真値からずれる。そこで、同じ対象物についての他の方法(本実施の形態では測距センサ600)で取得したデプスとToFセンサ500で取得したデプスを比較してそのずれを把握することにより、材質等ごとの領域抽出を行うことが可能となる。 The depth that can be acquired by the ToF sensor 500 deviates from the true value depending on the material of the object and the like due to the above-mentioned multipath. Therefore, by comparing the depth acquired by another method for the same object (distance measuring sensor 600 in this embodiment) and the depth acquired by the ToF sensor 500 and grasping the deviation, the area for each material and the like is obtained. It becomes possible to perform extraction.
 次にステップS107で、画像処理部104は、第1デプスマップ上から抽出された領域を描画した表示用画像を生成する。表示用画像の生成は、抽出された領域を第1デプスマップ上に描画することにより行う。なお、第2デプスマップ、第1RGB画像、第2RGB画像のいずれかに描画することで表示用画像の生成を行ってもよい。生成された表示用画像を表示部180において表示することによりユーザは抽出された領域を確認することができる。 Next, in step S107, the image processing unit 104 generates a display image in which the area extracted from the first depth map is drawn. The display image is generated by drawing the extracted area on the first depth map. The display image may be generated by drawing on any of the second depth map, the first RGB image, and the second RGB image. By displaying the generated display image on the display unit 180, the user can confirm the extracted area.
 例えば対象物が「スプーンを持つ人の手」であり、スプーンが木製であり、人の手と色が似ているとする。ここで、「色が似ている」とは、スプーンの色を構成する要素である色相、彩度、明度の値と、手(肌)の色を構成する色相、彩度、明度の値とが所定の近似の範囲内にある状態や、スプーンの色を表すRGBの値と手(肌)の色を表すRGBの値が所定の近似の範囲内にある状態をいう。 For example, assume that the object is a "hand of a person holding a spoon", the spoon is made of wood, and the color is similar to that of a person's hand. Here, "similar in color" means the values of hue, saturation, and lightness, which are the elements that make up the color of the spoon, and the values of hue, saturation, and lightness that make up the color of the hand (skin). Is within a predetermined approximation range, or the RGB value representing the color of the spoon and the RGB value representing the color of the hand (skin) are within the predetermined approximation range.
 対象物である「スプーンと手」のグレー画像が図6Aに示すものであり、対象物の第1デプスマップが図6Bに示すものであり、領域抽出部103によりスプーンと手のそれぞれが異なる領域として抽出されたとする。この場合、表示用画像は図6Cに示すように、それぞれ領域として抽出されたスプーンと手を異なる色で描画することにより、それらが異なる領域として抽出されたことを表す画像となる。 The gray image of the object "spoon and hand" is shown in FIG. 6A, the first depth map of the object is shown in FIG. 6B, and the region extraction unit 103 makes the spoon and the hand different regions. It is assumed that it is extracted as. In this case, as shown in FIG. 6C, the display image is an image showing that the spoon and the hand extracted as different regions are extracted as different regions by drawing the hands in different colors.
 このように領域を抽出することにより、2つ以上の物が抽出される場合もあれば、物としては1つであるがその物の表面上における異なる材質等で構成された複数の領域が抽出される場合もある。さらに、2つ以上の物が抽出され、かつ、その物の表面に2つ以上の区別できる領域が抽出される場合もある。 By extracting the region in this way, two or more objects may be extracted, or a plurality of regions composed of different materials or the like on the surface of the object may be extracted although the object is one. It may be done. Further, in some cases, two or more objects are extracted, and two or more distinguishable regions are extracted on the surface of the objects.
 以上のようにして第1の実施の形態における処理が行われる。第1の実施の形態によれば、デプス差に基づいて領域を抽出するため、色が同じまたは似ているためにRGBの画像だけでは抽出することができない領域を抽出することができる。 As described above, the processing according to the first embodiment is performed. According to the first embodiment, since the region is extracted based on the depth difference, it is possible to extract the region that cannot be extracted only by the RGB image because the colors are the same or similar.
<2.第2の実施の形態>
[2-1.情報処理装置200の構成]
 次に本技術の第2の実施の形態について説明する。情報処理システム10の構成は第1の実施の形態と同様である。第2の実施の形態における情報処理装置200は、図7に示すように、デプスマップ生成部101、差分マップ生成部102、領域抽出部103、種類特定部201、画像処理部104という機能ブロックを備えるように構成されている。デプスマップ生成部101、差分マップ生成部102、領域抽出部103、画像処理部104は第1の実施の形態におけるものと同様であるため、その説明を省略する。
<2. Second Embodiment>
[2-1. Configuration of information processing device 200]
Next, a second embodiment of the present technique will be described. The configuration of the information processing system 10 is the same as that of the first embodiment. As shown in FIG. 7, the information processing apparatus 200 according to the second embodiment includes functional blocks of a depth map generation unit 101, a difference map generation unit 102, an area extraction unit 103, a type identification unit 201, and an image processing unit 104. It is configured to be prepared. Since the depth map generation unit 101, the difference map generation unit 102, the area extraction unit 103, and the image processing unit 104 are the same as those in the first embodiment, the description thereof will be omitted.
 種類特定部201は、図8に示すような、ToFセンサ500で取得したデプスマップと、測距センサ600で取得した画像から生成したデプスマップにおけるデプス差のピークと対象物の種類を予め対応付けたテーブルを参照することにより対象物を構成する材質等の種類を特定する。なお、テーブルは種類特定部201が有していてもよいし、記憶部160に予め格納しておいて、種類特定部201が記憶部160のテーブルを読み出してもよい。また、外部のサーバなどにテーブルを格納しておき、情報処理装置200がインターフェース170を介してそのサーバにアクセスしてテーブルを読み出すようにしてもよい。図8に示したテーブルは説明の便宜上の表したものであり、図8中に記載した木、食べ物、肌、布のデプス差が図8に示す値であるということではない。 The type specifying unit 201 associates the depth map acquired by the ToF sensor 500 with the peak of the depth difference in the depth map generated from the image acquired by the distance measuring sensor 600 in advance and the type of the object as shown in FIG. By referring to the table, the types of materials that make up the object are specified. The table may be possessed by the type specifying unit 201, or may be stored in the storage unit 160 in advance so that the type specifying unit 201 can read out the table of the storage unit 160. Further, the table may be stored in an external server or the like, and the information processing apparatus 200 may access the server via the interface 170 and read the table. The table shown in FIG. 8 is for convenience of explanation, and does not mean that the depth differences of wood, food, skin, and cloth described in FIG. 8 are the values shown in FIG.
 種類とは、ある基準で性質や形態などが共通するものを分類し、それぞれをまとまりとしたものである。種類には例えば、金属、植物、食物、生物、布、合成樹脂、鉱物、紙、など様々なものが存在する。なお、種類はさらに詳細に分類してもよく、例えば食物をより詳細に野菜と肉に分類したり、金属をさらに鉄、銅、金などに分類してもよい。 The type is a group of items that have the same properties and morphology according to a certain standard. There are various types such as metals, plants, foods, organisms, cloths, synthetic resins, minerals, and papers. The types may be further classified, for example, food may be classified into vegetables and meat in more detail, and metals may be further classified into iron, copper, gold and the like.
[2-1.情報処理装置200による処理]
 次に図9のフローチャートを参照して第2の実施の形態における情報処理装置200の処理について説明する。
[2-1. Processing by information processing device 200]
Next, the processing of the information processing apparatus 200 in the second embodiment will be described with reference to the flowchart of FIG.
 ステップS101からステップS106までは第1の実施の形態における処理と同じであるため、説明を省略する。 Since steps S101 to S106 are the same as the processes in the first embodiment, the description thereof will be omitted.
 ステップS106で領域抽出部103が第1デプスマップ上の領域を抽出すると、次にステップS201で種類特定部201は領域抽出部103が抽出した領域の種類を特定する。 When the area extraction unit 103 extracts the area on the first depth map in step S106, the type identification unit 201 then specifies the type of the area extracted by the area extraction unit 103 in step S201.
 例えばテーブルが図8に示すようにデプス差と物を構成する材質等の種類が対応付けられたものである場合で、領域抽出部103が生成した対象物のヒストグラムが図10に示すものであるとする。そして、テーブルと対象物のヒストグラムを比較して、ピークの位置がテーブルにおけるある種類の範囲に含まれる場合に、その領域を構成する材質等の種類として特定する。 For example, when the table is associated with the depth difference and the type of material or the like constituting the object as shown in FIG. 8, the histogram of the object generated by the region extraction unit 103 is shown in FIG. And. Then, the histogram of the table and the object are compared, and when the position of the peak is included in a certain kind of range in the table, it is specified as the kind of the material or the like constituting the region.
 図8のテーブルと図10のヒストグラムにおいては、図10のヒストグラムの2つのピークは図8のテーブルにおける「木」と「肌」にそれぞれ含まれるため、抽出された領域は木の領域と肌の領域であるとして種類を特定することができる。 In the table of FIG. 8 and the histogram of FIG. 10, since the two peaks of the histogram of FIG. 10 are included in the "tree" and the "skin" in the table of FIG. 8, the extracted regions are the region of the tree and the skin. The type can be specified as an area.
 次にステップS202で、画像処理部104は、第1デプスマップ上から抽出した領域とその領域の種類を描画した表示用画像を生成する。表示用画像の生成は第1デプスマップ上に抽出領域を描画することにより行う。なお、第2デプスマップ、第1RGB画像、第2RGB画像のいずれかに描画することで表示用画像の生成を行ってもよい。 Next, in step S202, the image processing unit 104 generates a display image in which the region extracted from the first depth map and the type of the region are drawn. The display image is generated by drawing the extraction area on the first depth map. The display image may be generated by drawing on any of the second depth map, the first RGB image, and the second RGB image.
 対象物である「スプーンと手(肌)」のグレー画像が図11Aに示すものであり、対象物の第1デプスマップが図11Bに示すものであり、領域抽出部103によりスプーンと手(肌)がそれぞれ異なる領域として抽出されたとする。この場合、表示用画像は図11Cに示すように、それぞれ異なる領域として抽出されたスプーンと手(肌)を異なる色で描画することによりそれらが異なる領域として抽出されたことを表す画像となる。 The gray image of the object "spoon and hand (skin)" is shown in FIG. 11A, the first depth map of the object is shown in FIG. 11B, and the spoon and hand (skin) are shown by the region extraction unit 103. ) Are extracted as different regions. In this case, as shown in FIG. 11C, the display image is an image showing that the spoon and the hand (skin) extracted as different regions are extracted as different regions by drawing them in different colors.
 さらに、図11Cに示す表示用画像においては、抽出された各領域に対応させて、特定した各領域の種類が文字で示されている。この表示用画像を表示部180において表示することによりユーザが抽出された領域とその領域の種類を確認することができる。なお、表示用画像における領域の種類の示し方は図11Dに示すような方法でもよく、ユーザが領域の種類を知ることができればどのような方法でもよい。なお、図11Dではスプーンが青色、手(肌)が赤色で表されているとする。 Further, in the display image shown in FIG. 11C, the type of each specified area is indicated by characters corresponding to each extracted area. By displaying this display image on the display unit 180, the user can confirm the extracted area and the type of the area. The method of indicating the type of the area in the display image may be the method shown in FIG. 11D, and any method may be used as long as the user can know the type of the area. In FIG. 11D, it is assumed that the spoon is shown in blue and the hand (skin) is shown in red.
 以上のようにして第2の実施の形態における処理が行われる。第2の実施の形態によれば、対象物における領域の検出に加え、その領域を構成する材質等の種類を特定することができる。 As described above, the processing in the second embodiment is performed. According to the second embodiment, in addition to the detection of the region in the object, the type of the material or the like constituting the region can be specified.
 なお、詳細な種類の特定(例えば、食品において肉、野菜などの種類を特定、野菜における大根、葱、人参などの特定)を行うためには実験を行ってデプス差を取得してテーブルを用意すればよい。 In addition, in order to specify the types in detail (for example, specify the types of meat, vegetables, etc. in foods, specify radishes, green onions, carrots, etc. in vegetables), conduct experiments to obtain the depth difference and prepare a table. do it.
<3.第3の実施の形態>
[3-1.情報処理システム30の構成]
 次に図12を参照して、本技術の第3の実施の形態における情報処理システム30の構成について説明する。情報処理システム30は、情報処理装置300およびToFセンサ500とから構成されている。ToFセンサ500は第1の実施の形態と同様のものであるためその説明を省略する。
<3. Third Embodiment>
[3-1. Configuration of information processing system 30]
Next, with reference to FIG. 12, the configuration of the information processing system 30 according to the third embodiment of the present technology will be described. The information processing system 30 includes an information processing device 300 and a ToF sensor 500. Since the ToF sensor 500 is the same as that of the first embodiment, the description thereof will be omitted.
 第3の実施の形態においては、対象物は、物の表面にその物とは材質等が異なり、かつ、色が同じまたは似ている領域が存在していることを前提とする。その領域は物の表面にもとから存在しているものでもよいし、ユーザなどが物の表面につけた文字や図形などからなるマーカのようなものでもよい。「色が似ている」とは第1の実施の形態において説明したものと同様のものである。 In the third embodiment, it is premised that the object has a region on the surface of the object whose material is different from that of the object and whose color is the same or similar. The area may be one that originally exists on the surface of the object, or may be something like a marker consisting of characters or figures attached to the surface of the object by a user or the like. "Similar in color" is similar to that described in the first embodiment.
[3-2.情報処理装置300の構成]
 次に第3の実施の形態における情報処理装置300の構成について説明する。機能ブロック以外の構成は第1の実施の形態における構成と同様であるため、その説明を省略する。
[3-2. Configuration of information processing device 300]
Next, the configuration of the information processing apparatus 300 according to the third embodiment will be described. Since the configuration other than the functional block is the same as the configuration in the first embodiment, the description thereof will be omitted.
 図13に示すように、第3の実施の形態における情報処理装置300は、状態推定部301、デプスマップ生成部101、差分マップ生成部102、領域抽出部103、画像処理部104という機能ブロックを備えるように構成されている。デプスマップ生成部101、差分マップ生成部102、領域抽出部103、画像処理部104は第1の実施の形態におけるものと同様であるため、その説明を省略する。 As shown in FIG. 13, the information processing apparatus 300 according to the third embodiment includes functional blocks of a state estimation unit 301, a depth map generation unit 101, a difference map generation unit 102, an area extraction unit 103, and an image processing unit 104. It is configured to be prepared. Since the depth map generation unit 101, the difference map generation unit 102, the area extraction unit 103, and the image processing unit 104 are the same as those in the first embodiment, the description thereof will be omitted.
 状態推定部301は、3次元形状データを用いて対象物の状態を推定する。対象物の状態とは、対象物の形状、姿勢および大きさである。なお、対象物の形状が1種類である場合は、対象物の状態は姿勢のみでよい。また、大きさは必須ではなく対象物の状態は姿勢と形状の組み合わせでもよい。 The state estimation unit 301 estimates the state of the object using the three-dimensional shape data. The state of the object is the shape, posture and size of the object. When the shape of the object is one type, the state of the object may be only the posture. Further, the size is not essential, and the state of the object may be a combination of posture and shape.
 3次元形状データは、例えば図14A乃至図14Iに示すような球体、円柱、円錐、正方形、長方形、六角柱、三角錐、三角柱、平板などの複数の3次元の形状を示すデータである。ただし、3次元形状データはこれらに限られるものではなく、どのような3次元の形状の情報でもよい。より多くの様々な形状の対象物の領域検出を可能にするためには、予めより多くの3次元形状データを用意しておくとよい。 The three-dimensional shape data is data showing a plurality of three-dimensional shapes such as a sphere, a cylinder, a cone, a square, a rectangle, a hexagonal column, a triangular pyramid, a triangular prism, and a flat plate as shown in FIGS. 14A to 14I. However, the three-dimensional shape data is not limited to these, and any three-dimensional shape information may be used. In order to enable region detection of more various shapes of objects, it is advisable to prepare more three-dimensional shape data in advance.
 3次元形状データは状態推定部301が有していてもよいし、記憶部160に予め格納しておいて、状態推定部301が記憶部160の3次元形状データを読み出してもよい。また、外部のサーバなどにテーブルを格納しておき、情報処理装置300がインターフェース170を介してそのサーバにアクセスして3次元形状データを読み出すようにしてもよい。 The three-dimensional shape data may be possessed by the state estimation unit 301, or may be stored in the storage unit 160 in advance so that the state estimation unit 301 can read out the three-dimensional shape data of the storage unit 160. Further, the table may be stored in an external server or the like, and the information processing apparatus 300 may access the server via the interface 170 and read the three-dimensional shape data.
 情報処理装置300は以上のようにして構成されている。 The information processing device 300 is configured as described above.
[3-3.情報処理装置300による処理]
 次に図15のフローチャートを参照して第3の実施の形態における情報処理装置300の処理について説明する。なお、第1の実施の形態と同様の処理については詳細な説明は省略する。
[3-3. Processing by information processing device 300]
Next, the processing of the information processing apparatus 300 in the third embodiment will be described with reference to the flowchart of FIG. A detailed description of the same processing as that of the first embodiment will be omitted.
 ステップS101で、情報処理装置300はToFセンサ500から対象物についての第1デプスマップを取得すると、次にステップS301で状態推定部301が対象物の状態を推定する。 In step S101, the information processing apparatus 300 acquires the first depth map of the object from the ToF sensor 500, and then in step S301, the state estimation unit 301 estimates the state of the object.
 対象物の状態である形状、姿勢、大きさの推定は、まず、1つの3次元形状データについて3次元空間のある視点における姿勢と大きさを仮で決定し、その視点から見た3次元形状についての状態推定用デプスマップを求める。その状態推定用デプスマップと、対象物についての第1デプスマップとを比較する。そして、この比較処理を全ての3次元形状データのそれぞれについて取りうる全パターンの姿勢と複数の大きさで行い、最もデプス差が小さいものを対象物の形状、姿勢、大きさとして推定する。なお、大きさに関しては範囲が予め規定されており、その範囲内で仮の大きさを決定する。 To estimate the shape, posture, and size of an object, first, the posture and size of one 3D shape data at a certain viewpoint in 3D space are tentatively determined, and then the 3D shape viewed from that viewpoint. Find the depth map for state estimation about. The depth map for state estimation is compared with the first depth map for the object. Then, this comparison process is performed for all possible patterns of postures and a plurality of sizes for each of the three-dimensional shape data, and the one with the smallest depth difference is estimated as the shape, posture, and size of the object. The range is predetermined for the size, and the temporary size is determined within the range.
 その際、例えば球体であればどの姿勢でもデプスマップは同じになるが、その場合はどれか1つを代表して選択するとよい。 At that time, for example, if it is a sphere, the depth map will be the same regardless of the posture, but in that case, it is better to select one as a representative.
 次にステップS302でデプスマップ生成部101は、ステップS301における処理で対象物の状態であると推定した3次元形状データについて、推定した対象物の大きさに合わせて、推定した対象物の姿勢に基づいてToFセンサ500視点の第2デプスマップを生成する。 Next, in step S302, the depth map generation unit 101 adjusts the three-dimensional shape data estimated to be the state of the object in the process in step S301 to the estimated posture of the object according to the estimated size of the object. Based on this, a second depth map of the ToF sensor 500 viewpoint is generated.
 次にステップS303で差分マップ生成部102は、第1デプスマップと第2デプスマップとに基づいて差分マップを生成する。差分マップの生成は第1の実施の形態と同様に、第1デプスマップを構成する各ピクセルにおいて第2デプスマップとのデプス差を算出することで行う。 Next, in step S303, the difference map generation unit 102 generates a difference map based on the first depth map and the second depth map. The difference map is generated by calculating the depth difference from the second depth map at each pixel constituting the first depth map, as in the first embodiment.
 次にステップS304で、領域抽出部103は差分マップのヒストグラムを生成し、ヒストグラムからピークを検出する。 Next, in step S304, the area extraction unit 103 generates a histogram of the difference map and detects a peak from the histogram.
 次にステップS305で、領域抽出部103は、第1デプスマップを構成する全てのピクセルの中から、ヒストグラムにおいて検出したピークのデプス差を有するピクセルを全て抽出することに領域を抽出する。 Next, in step S305, the area extraction unit 103 extracts an area from all the pixels constituting the first depth map by extracting all the pixels having the depth difference of the peak detected in the histogram.
 または、領域抽出部103はヒストグラムにおいて検出したピークを中心とした所定量の幅に含まれるデプス差を有する全てのピクセルを第1デプスマップ上から抽出することにより領域を抽出する。領域抽出の方法は第1の実施の形態と同様である。 Alternatively, the region extraction unit 103 extracts a region by extracting all pixels having a depth difference included in a predetermined amount of width centered on the peak detected in the histogram from the first depth map. The method of region extraction is the same as that of the first embodiment.
 次にステップS306で、画像処理部104は、第1デプスマップ上から抽出した抽出領域を描画した表示用画像を生成する。表示用画像の生成は第1デプスマップ上に抽出領域を描画することにより行う。なお、第2デプスマップ上や3次元形状データ上に描画することで表示用画像の生成を行ってもよい。生成された表示用画像を表示部180において表示することによりユーザが抽出された領域を確認することができる。 Next, in step S306, the image processing unit 104 generates a display image in which the extraction area extracted from the first depth map is drawn. The display image is generated by drawing the extraction area on the first depth map. The display image may be generated by drawing on the second depth map or the three-dimensional shape data. By displaying the generated display image on the display unit 180, the user can confirm the extracted area.
 以上のようにして第3の実施の形態における処理が行われる。 As described above, the processing according to the third embodiment is performed.
 第3の実施の形態によれば、例えば、形状だけでは向きが決まらず、上下左右どの方向から見ても同じ形に見える物のいずれかの面にマーカを付し、本技術でそのマーカを抽出することにより、容易にその物の向きや面を把握することができる。 According to the third embodiment, for example, the orientation is not determined only by the shape, and a marker is attached to any surface of an object that looks the same when viewed from any direction, up, down, left, or right, and the marker is used in the present technique. By extracting, the direction and surface of the object can be easily grasped.
 具体的には、図16Aに示すように対象物である箱の前面に目印として対象物との異なる材質等のマーカ(図16Aにおいては「前」という文字)を設けておく。そして、そのマーカを本技術で領域として抽出して認識することにより、マーカがある面がその箱の前面であることを把握できる。 Specifically, as shown in FIG. 16A, a marker (character "front" in FIG. 16A) of a material different from the object is provided as a mark on the front surface of the box which is the object. Then, by extracting and recognizing the marker as an area by the present technique, it is possible to grasp that the surface on which the marker is located is the front surface of the box.
 そのマーカは色が対象物と同一または似ていても抽出することができるため、対象物の外観の邪魔になることがなく、さらに、対象物を見る人にマーカがあることを認識させないようにすることもできる。 The marker can be extracted even if the color is the same as or similar to the object, so it does not interfere with the appearance of the object and does not make the viewer of the object aware that the marker is present. You can also do it.
 また、図16Bに示すように対象物の表面に対象物とは材質が異なり、かつ、色が同一または似ている領域として秘密の情報を記載しておけば、本技術を使用することによってのみその秘密の情報を読み取ることができる。これにより、他の人物に知られることなく秘密の情報のやり取りを行うことができる。図16Bにおいては対象物である紙に領域として文字で「ひみつの情報」と記載している。 Further, as shown in FIG. 16B, if secret information is described on the surface of the object as an area where the material is different from the object and the color is the same or similar, only by using this technique. The secret information can be read. As a result, secret information can be exchanged without being known by other persons. In FIG. 16B, "secret information" is described in characters as an area on the paper that is the object.
<4.変形例>
 以上、本技術の実施の形態について具体的に説明したが、本技術は上述の実施の形態に限定されるものではなく、本技術の技術的思想に基づく各種の変形が可能である。
<4. Modification example>
Although the embodiment of the present technology has been specifically described above, the present technology is not limited to the above-described embodiment, and various modifications based on the technical idea of the present technology are possible.
 実施の形態では測距センサ600としてRGBステレオカメラを用いたが、測距センサはデプス情報を取得してデプスマップを生成することができればどのようなカメラやセンサでもよい。例えば、測距センサ600は、2つのIR(Infrared)カメラから構成されるステレオIRカメラや、1つのIRカメラとStructured Lightによる三角測量などでもよい。 In the embodiment, an RGB stereo camera is used as the distance measuring sensor 600, but the distance measuring sensor may be any camera or sensor as long as it can acquire depth information and generate a depth map. For example, the distance measuring sensor 600 may be a stereo IR camera composed of two IR (Infrared) cameras, a triangulation by one IR camera and Structured Light, or the like.
 実施の形態では測距センサ600から画像を取得して情報処理装置100がデプスマップを生成したが、測距センサ600や外部装置においてデプスマップを生成し、それを情報処理装置100が取得するようにしてもよい。 In the embodiment, the information processing apparatus 100 generates a depth map by acquiring an image from the ranging sensor 600, but the information processing apparatus 100 generates a depth map in the ranging sensor 600 or an external device so as to acquire it. You may do it.
 また、いずれの実施の形態においても情報処理装置はサーバ、クラウドにおいて動作してもよい。その場合、情報処理装置はToFセンサ500が生成した第1デプスマップ、測距センサ600が生成した画像などはネットワークを介して受信して処理を行う。 Further, in any of the embodiments, the information processing device may operate on the server or the cloud. In that case, the information processing apparatus receives the first depth map generated by the ToF sensor 500, the image generated by the distance measuring sensor 600, and the like via the network and processes them.
 本技術は以下のような構成も取ることができる。
(1)
 ToFセンサにより取得された対象物についての第1デプスマップと、前記対象物についての第2デプスマップとから差分マップを生成する差分マップ生成部と、
 前記差分マップに基づいて前記第1デプスマップ上における領域を抽出する領域抽出部とを備える
情報処理装置。
(2)
 前記第2デプスマップを生成するデプスマップ生成部を備える(1)に記載の情報処理装置。
(3)
 前記デプスマップ生成部は、測距センサとしてのステレオカメラを構成する第1撮像装置により取得された第1画像と、前記ステレオカメラを構成する第2撮像装置により取得された第2画像とに基づいて前記第2デプスマップを生成する(2)に記載の情報処理装置。
(4)
 前記差分マップ生成部は、前記第1デプスマップを構成する各ピクセルにおける前記第2デプスマップとのデプス差を算出することにより前記差分マップを生成する(1)から(3)のいずれかに記載の情報処理装置。
(5)
 前記領域抽出部は、前記差分マップのヒストグラムにおけるピークに対応するデプス差を有する前記第1デプスマップ上の領域を抽出する(1)から(4)のいずれかに記載の情報処理装置。
(6)
 前記領域抽出部は、前記差分マップのヒストグラムにおけるピークを中心とした所定の幅に含まれるデプス差を有する前記第1デプスマップ上の領域を抽出する(1)から(5)のいずれかに記載の情報処理装置。
(7)
 前記領域抽出部が抽出した領域を示す画像を生成する画像処理部を備える(1)から(6)のいずれかに記載の情報処理装置。
(8)
 デプス差と前記対象物の種類を予め対応付けたテーブルを参照することにより前記対象物の種類を特定する種類特定部を備える(1)から(7)のいずれかに記載の情報処理装置。
(9)
 前記領域抽出部が抽出した領域と前記種類特定部が特定した前記対象物の種類を示す画像を生成する画像処理部を備える(8)に記載の情報処理装置。
(10)
 前記第1デプスマップと、3次元形状データから生成される状態推定用デプスマップとに基づいて前記対象物の状態を推定する状態推定部を備える(1)から(9)のいずれかに記載の情報処理装置。
(11)
 前記対象物の状態は、前記対象物の姿勢である(10)に記載の情報処理装置。
(12)
 前記対象物の状態は、前記対象物の形状である(11)に記載の情報処理装置。
(13)
 前記対象物の状態は、前記対象物の大きさである(11)または(12)に記載の情報処理装置。
(14)
 前記デプスマップ生成部は、前記対象物の状態に基づいて前記ToFセンサの視点を基準とした前記3次元形状データについての前記第2デプスマップを生成し、
 前記差分マップ生成部は、前記第1デプスマップと、前記第2デプスマップとから前記差分マップを生成する(10)に記載の情報処理装置。
(15)
 ToFセンサにより取得された対象物についての第1デプスマップと、前記対象物についての第2デプスマップとから差分マップを生成し、
 前記差分マップに基づいて前記第1デプスマップ上における領域を抽出する
情報処理方法。
(16)
 ToFセンサにより取得された対象物についての第1デプスマップと、前記対象物についての第2デプスマップとから差分マップを生成し、
 前記差分マップに基づいて前記第1デプスマップ上における領域を抽出する
情報処理方法をコンピュータに実行させる情報処理プログラム。
The present technology can also take the following configurations.
(1)
A difference map generator that generates a difference map from a first depth map of an object acquired by a ToF sensor and a second depth map of the object.
An information processing device including an area extraction unit that extracts an area on the first depth map based on the difference map.
(2)
The information processing apparatus according to (1), comprising a depth map generation unit that generates the second depth map.
(3)
The depth map generation unit is based on a first image acquired by a first image pickup apparatus constituting a stereo camera as a distance measuring sensor and a second image acquired by a second image pickup apparatus constituting the stereo camera. The information processing apparatus according to (2), which generates the second depth map.
(4)
Described in any one of (1) to (3), the difference map generation unit generates the difference map by calculating the depth difference between each pixel constituting the first depth map and the second depth map. Information processing equipment.
(5)
The information processing apparatus according to any one of (1) to (4), wherein the region extraction unit extracts a region on the first depth map having a depth difference corresponding to a peak in the histogram of the difference map.
(6)
Described in any one of (1) to (5), the region extraction unit extracts a region on the first depth map having a depth difference included in a predetermined width centered on a peak in the histogram of the difference map. Information processing device.
(7)
The information processing apparatus according to any one of (1) to (6), comprising an image processing unit that generates an image indicating an region extracted by the region extraction unit.
(8)
The information processing apparatus according to any one of (1) to (7), comprising a type specifying unit for specifying the type of the object by referring to a table in which the depth difference and the type of the object are previously associated with each other.
(9)
The information processing apparatus according to (8), further comprising an image processing unit that generates an image indicating the type of the object specified by the area extraction unit and the area extraction unit.
(10)
The description according to any one of (1) to (9), comprising a state estimation unit that estimates the state of the object based on the first depth map and the state estimation depth map generated from the three-dimensional shape data. Information processing device.
(11)
The information processing apparatus according to (10), wherein the state of the object is the posture of the object.
(12)
The information processing apparatus according to (11), wherein the state of the object is the shape of the object.
(13)
The information processing apparatus according to (11) or (12), wherein the state of the object is the size of the object.
(14)
The depth map generation unit generates the second depth map for the three-dimensional shape data with respect to the viewpoint of the ToF sensor based on the state of the object.
The information processing apparatus according to (10), wherein the difference map generation unit generates the difference map from the first depth map and the second depth map.
(15)
A difference map is generated from the first depth map of the object acquired by the ToF sensor and the second depth map of the object.
An information processing method for extracting an area on the first depth map based on the difference map.
(16)
A difference map is generated from the first depth map of the object acquired by the ToF sensor and the second depth map of the object.
An information processing program that causes a computer to execute an information processing method for extracting an area on the first depth map based on the difference map.
100、200、300・・・情報処理装置
101・・・デプスマップ生成部
102・・・差分マップ生成部
103・・・領域抽出部
104・・・画像処理部
201・・・種類特定部
301・・・状態推定部
500・・・ToFセンサ
600・・・ステレオカメラ
100, 200, 300 ... Information processing device 101 ... Depth map generation unit 102 ... Difference map generation unit 103 ... Area extraction unit 104 ... Image processing unit 201 ... Type identification unit 301.・ ・ State estimation unit 500 ・ ・ ・ ToF sensor 600 ・ ・ ・ Stereo camera

Claims (16)

  1.  ToFセンサにより取得された対象物についての第1デプスマップと、前記対象物についての第2デプスマップとから差分マップを生成する差分マップ生成部と、
     前記差分マップに基づいて前記第1デプスマップ上における領域を抽出する領域抽出部と
    を備える情報処理装置。
    A difference map generator that generates a difference map from a first depth map of an object acquired by a ToF sensor and a second depth map of the object.
    An information processing device including an area extraction unit that extracts an area on the first depth map based on the difference map.
  2.  前記第2デプスマップを生成するデプスマップ生成部を備える
    請求項1に記載の情報処理装置。
    The information processing apparatus according to claim 1, further comprising a depth map generation unit that generates the second depth map.
  3.  前記デプスマップ生成部は、測距センサとしてのステレオカメラを構成する第1撮像装置により取得された第1画像と、前記ステレオカメラを構成する第2撮像装置により取得された第2画像とに基づいて前記第2デプスマップを生成する
    請求項2に記載の情報処理装置。
    The depth map generation unit is based on a first image acquired by a first image pickup apparatus constituting a stereo camera as a distance measuring sensor and a second image acquired by a second image pickup apparatus constituting the stereo camera. The information processing apparatus according to claim 2, wherein the second depth map is generated.
  4.  前記差分マップ生成部は、前記第1デプスマップを構成する各ピクセルにおける前記第2デプスマップとのデプス差を算出することにより前記差分マップを生成する
    請求項1に記載の情報処理装置。
    The information processing apparatus according to claim 1, wherein the difference map generation unit generates the difference map by calculating the depth difference between each pixel constituting the first depth map and the second depth map.
  5.  前記領域抽出部は、前記差分マップのヒストグラムにおけるピークに対応するデプス差を有する前記第1デプスマップ上の領域を抽出する
    請求項1に記載の情報処理装置。
    The information processing apparatus according to claim 1, wherein the region extraction unit extracts a region on the first depth map having a depth difference corresponding to a peak in the histogram of the difference map.
  6.  前記領域抽出部は、前記差分マップのヒストグラムにおけるピークを中心とした所定の幅に含まれるデプス差を有する前記第1デプスマップ上の領域を抽出する
    請求項1に記載の情報処理装置。
    The information processing apparatus according to claim 1, wherein the region extraction unit extracts a region on the first depth map having a depth difference included in a predetermined width centered on a peak in the histogram of the difference map.
  7.  前記領域抽出部が抽出した領域を示す画像を生成する画像処理部を備える
    請求項1に記載の情報処理装置。
    The information processing apparatus according to claim 1, further comprising an image processing unit that generates an image indicating an region extracted by the region extraction unit.
  8.  デプス差と前記対象物の種類を予め対応付けたテーブルを参照することにより前記対象物の種類を特定する種類特定部を備える
    請求項1に記載の情報処理装置。
    The information processing apparatus according to claim 1, further comprising a type specifying unit that specifies the type of the object by referring to a table in which the depth difference and the type of the object are previously associated with each other.
  9.  前記領域抽出部が抽出した領域と前記種類特定部が特定した前記対象物の種類を示す画像を生成する画像処理部を備える
    請求項8に記載の情報処理装置。
    The information processing apparatus according to claim 8, further comprising an image processing unit that generates an image indicating the type of the object specified by the area extraction unit and the area extraction unit.
  10.  前記第1デプスマップと、3次元形状データから生成される状態推定用デプスマップとに基づいて前記対象物の状態を推定する状態推定部を備える
    請求項1に記載の情報処理装置。
    The information processing apparatus according to claim 1, further comprising a state estimation unit that estimates the state of the object based on the first depth map and the state estimation depth map generated from the three-dimensional shape data.
  11.  前記対象物の状態は、前記対象物の姿勢である
    請求項10に記載の情報処理装置。
    The information processing device according to claim 10, wherein the state of the object is the posture of the object.
  12.  前記対象物の状態は、前記対象物の形状である
    請求項11に記載の情報処理装置。
    The information processing apparatus according to claim 11, wherein the state of the object is the shape of the object.
  13.  前記対象物の状態は、前記対象物の大きさである
    請求項11に記載の情報処理装置。
    The information processing apparatus according to claim 11, wherein the state of the object is the size of the object.
  14.  前記デプスマップ生成部は、前記対象物の状態に基づいて前記ToFセンサの視点を基準とした前記3次元形状データについての前記第2デプスマップを生成し、
     前記差分マップ生成部は、前記第1デプスマップと、前記第2デプスマップとから前記差分マップを生成する
    請求項10に記載の情報処理装置。
    The depth map generation unit generates the second depth map for the three-dimensional shape data with respect to the viewpoint of the ToF sensor based on the state of the object.
    The information processing device according to claim 10, wherein the difference map generation unit generates the difference map from the first depth map and the second depth map.
  15.  ToFセンサにより取得された対象物についての第1デプスマップと、前記対象物についての第2デプスマップとから差分マップを生成し、
     前記差分マップに基づいて前記第1デプスマップ上における領域を抽出する
    情報処理方法。
    A difference map is generated from the first depth map of the object acquired by the ToF sensor and the second depth map of the object.
    An information processing method for extracting an area on the first depth map based on the difference map.
  16.  ToFセンサにより取得された対象物についての第1デプスマップと、前記対象物についての第2デプスマップとから差分マップを生成し、
     前記差分マップに基づいて前記第1デプスマップ上における領域を抽出する
    情報処理方法をコンピュータに実行させる情報処理プログラム。
    A difference map is generated from the first depth map of the object acquired by the ToF sensor and the second depth map of the object.
    An information processing program that causes a computer to execute an information processing method for extracting an area on the first depth map based on the difference map.
PCT/JP2021/038741 2020-12-11 2021-10-20 Information processing device, information processing method, and information processing program WO2022123919A1 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2022568086A JPWO2022123919A1 (en) 2020-12-11 2021-10-20
CN202180081594.1A CN116615748A (en) 2020-12-11 2021-10-20 Information processing device, information processing method, and information processing program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020-206294 2020-12-11
JP2020206294 2020-12-11

Publications (1)

Publication Number Publication Date
WO2022123919A1 true WO2022123919A1 (en) 2022-06-16

Family

ID=81972853

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/038741 WO2022123919A1 (en) 2020-12-11 2021-10-20 Information processing device, information processing method, and information processing program

Country Status (3)

Country Link
JP (1) JPWO2022123919A1 (en)
CN (1) CN116615748A (en)
WO (1) WO2022123919A1 (en)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015133159A1 (en) * 2014-03-05 2015-09-11 コニカミノルタ株式会社 Image processing device, image processing method, and image processing program
WO2017006574A1 (en) * 2015-07-03 2017-01-12 オリンパス株式会社 Image processing device, image determination system, and endoscope system
JP2018072198A (en) * 2016-10-31 2018-05-10 富士通株式会社 Position posture estimation device, position posture estimation method, and position posture estimation program

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015133159A1 (en) * 2014-03-05 2015-09-11 コニカミノルタ株式会社 Image processing device, image processing method, and image processing program
WO2017006574A1 (en) * 2015-07-03 2017-01-12 オリンパス株式会社 Image processing device, image determination system, and endoscope system
JP2018072198A (en) * 2016-10-31 2018-05-10 富士通株式会社 Position posture estimation device, position posture estimation method, and position posture estimation program

Also Published As

Publication number Publication date
JPWO2022123919A1 (en) 2022-06-16
CN116615748A (en) 2023-08-18

Similar Documents

Publication Publication Date Title
US9396542B2 (en) Method of estimating imaging device parameters
EP2700040B1 (en) Color channels and optical markers
CN102141398A (en) Monocular vision-based method for measuring positions and postures of multiple robots
US10204404B2 (en) Image processing device and image processing method
US9639991B2 (en) Augmented reality provision system
US9972091B2 (en) System and method for detecting object from depth image
US20190073796A1 (en) Method and Image Processing System for Determining Parameters of a Camera
CN103252778A (en) Apparatus for estimating the robot pose and method thereof
EP3161725B1 (en) Color identification using infrared imaging
CN103607584A (en) Real-time registration method for depth maps shot by kinect and video shot by color camera
US20200372723A1 (en) Method for influencing virtual objects of augmented reality
WO2015108996A1 (en) Object tracking using occluding contours
US20200379485A1 (en) Method for positioning a movable platform, and related device and system
WO2020130070A1 (en) Detecting device, information processing device, detecting method, and information processing program
KR101781515B1 (en) Camera calibration system and method
CN101674418B (en) Method for detecting depth of emcee in virtual studio system
WO2022123919A1 (en) Information processing device, information processing method, and information processing program
KR20160024419A (en) System and Method for identifying stereo-scopic camera in Depth-Image-Based Rendering
CN104931039B (en) Free space positioning method and system
JP6207968B2 (en) Forest phase analysis apparatus, forest phase analysis method and program
JP2018041169A (en) Information processing device and control method and program thereof
CN114529692A (en) Head-mounted display system and method for constructing virtual environment of building space
WO2019198446A1 (en) Detection device, detection method, information processing device, and information processing program
KR101169400B1 (en) A Method & A System For Composing Stereo Image, And A Storage Medium
CN116883998B (en) Article labeling method and device based on millimeter wave image and electronic equipment

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21903023

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022568086

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 202180081594.1

Country of ref document: CN

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21903023

Country of ref document: EP

Kind code of ref document: A1