WO2020152927A1 - Training data generation method, training data generation device, and inference processing method - Google Patents

Training data generation method, training data generation device, and inference processing method Download PDF

Info

Publication number
WO2020152927A1
WO2020152927A1 PCT/JP2019/040667 JP2019040667W WO2020152927A1 WO 2020152927 A1 WO2020152927 A1 WO 2020152927A1 JP 2019040667 W JP2019040667 W JP 2019040667W WO 2020152927 A1 WO2020152927 A1 WO 2020152927A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
data
learning
background image
acquired
Prior art date
Application number
PCT/JP2019/040667
Other languages
French (fr)
Japanese (ja)
Inventor
吉田 修一
剛 大濱
勁峰 今西
良一 今中
Original Assignee
日本金銭機械株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本金銭機械株式会社 filed Critical 日本金銭機械株式会社
Publication of WO2020152927A1 publication Critical patent/WO2020152927A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Processing Or Creating Images (AREA)

Abstract

A training data generation system according to the present invention can quickly acquire a large amount of training data required for a training process in order to acquire a trained model to be used when executing an object detection process, an orientation detection process, and the like. In a training data generation system (1000), a training image is acquired by rendering, in a background image, a CG object having a known three-dimensional position in a three-dimensional space for which the background image has been acquired. It is therefore possible to, for example, acquire extremely accurate teaching data by acquiring a training position label and a training orientation label that identify the position and orientation of CG objects in the training image.

Description

学習用データ生成方法、学習用データ生成装置、および、推論処理方法Learning data generation method, learning data generation device, and inference processing method
 本発明は、物体検出処理、姿勢検出処理等に用いられる学習用データを自動生成する技術に関する。 The present invention relates to a technique for automatically generating learning data used for object detection processing, posture detection processing, and the like.
 従来から、各種の物体を把持したり搬送したりするための装置が知られている(例えば、特許文献1を参照)。このような装置において、多様な形状を有する物体を効率良く把持し、運搬するために、多様な技術が開発されている。例えば、特許文献2には、物体を把持するピッキングロボットのピッキング動作を撮影した画像と、そのときのピッキングロボットの動作状態を示す情報とを学習用データとして、学習処理を実行することで、多様な形状を有する物体を効率良く把持し、運搬することを可能にする技術の開示がある。 Conventionally, a device for gripping or carrying various objects has been known (for example, see Patent Document 1). In such a device, various techniques have been developed in order to efficiently grasp and carry objects having various shapes. For example, in Patent Document 2, by performing a learning process using an image of a picking motion of a picking robot that grips an object and information indicating the motion state of the picking robot at that time as learning data, There is a disclosure of a technique that makes it possible to efficiently grasp and carry an object having a different shape.
 多様な形状を有する物体を効率良く把持し、運搬するためには、把持しようとする対象の物体を検出する処理(物体検出処理)や対象物体の姿勢を検出する処理(姿勢検出処理)を高精度に実行することが重要である。近年、深層学習技術等に代表される機械学習技術を用いて、物体検出処理等を高精度に実行するための技術が開発されている。 In order to efficiently grip and carry objects with various shapes, it is necessary to perform high-level processing (object detection processing) that detects the target object to be gripped and processing that detects the posture of the target object (posture detection processing). It is important to carry out with precision. In recent years, a technique for executing an object detection process or the like with high accuracy has been developed by using a machine learning technique represented by a deep learning technique.
特表2018-504333号公報Japanese Patent Publication No. 2018-504333 特開2018-83246号公報Japanese Patent Laid-Open No. 2018-83246
 機械学習技術を用いて、物体検出処理等を高精度に実行するためには、多量の学習用データを用いた学習処理を実行し、高精度の学習済みモデルを取得する必要がある。例えば、多様な物体に対して物体検出処理や姿勢検出処理を行う学習済みモデルを取得するためには、多量の学習用データが必要となる。通常、物体検出処理や姿勢検出処理を行う学習済みモデルを取得するためには、対象物体を撮像した画像を取得し、当該画像に撮像されている対象物体の位置情報や姿勢情報を手動で特定し、特定した位置情報や姿勢情報と、撮像した画像とをセットにして、学習用データとする。 In order to execute object detection processing with high accuracy using machine learning technology, it is necessary to execute learning processing using a large amount of learning data and acquire a highly accurate learned model. For example, a large amount of learning data is required to acquire a learned model that performs object detection processing and orientation detection processing on various objects. Normally, in order to obtain a learned model that performs object detection processing and orientation detection processing, an image of the target object is captured and the position information and orientation information of the target object captured in the image are manually specified. Then, the specified position information and posture information and the captured image are set as learning data.
 しかしながら、このような手法により学習用データを取得する場合、手動で対象物体の位置情報や姿勢情報を特定する作業が必要となるため、短時間に多量の学習用データを取得することは困難である。 However, when learning data is acquired by such a method, it is difficult to acquire a large amount of learning data in a short time because it is necessary to manually specify position information and posture information of the target object. is there.
 そこで、本発明は、上記課題に鑑み、物体検出処理、姿勢検出処理等を実行するときに用いられる学習済みモデルを取得するために、学習処理時に必要となる学習用データを短時間に多量に取得できる学習用データ生成方法を実現することを目的とする。 Therefore, in view of the above problems, the present invention provides a large amount of learning data required in the learning process in a short time in order to acquire a learned model used when executing the object detection process, the posture detection process, and the like. The purpose is to realize a learning data generation method that can be acquired.
 上記課題を解決するために、第1の発明は、背景画像取得ステップと、学習用画像データ取得ステップと、を備える学習用データ生成方法である。 In order to solve the above problems, a first invention is a learning data generation method including a background image acquisition step and a learning image data acquisition step.
 背景画像取得ステップは、所定の3次元空間を撮像して取得した背景画像を取得する。 The background image acquisition step acquires a background image acquired by imaging a predetermined three-dimensional space.
 学習用画像データ取得ステップは、物体の形状およびテクスチャーの少なくとも1つを含むコンピュータグラフィックス処理用のデータであるCG物体生成用データを取得し、取得したCG物体生成用データに基づいて生成されるCG物体を、背景画像の撮像対象とした3次元空間内の所定の座標位置に配置されるように背景画像に合成することで取得される画像であるレンダリング画像を学習用画像データとして取得する。 The learning image data acquisition step acquires CG object generation data that is data for computer graphics processing including at least one of an object shape and texture, and is generated based on the acquired CG object generation data. A rendering image, which is an image obtained by combining a CG object with a background image so as to be arranged at a predetermined coordinate position in a three-dimensional space where the background image is captured, is obtained as learning image data.
 この学習用データ生成方法では、背景画像を取得した3次元空間内での3次元位置が分かっているCG物体を、背景画像にレンダリングして学習用画像を取得するので、例えば、当該学習用画像において、各CG物体の位置や姿勢を特定する学習用位置ラベルや学習用姿勢ラベルを取得することで、極めて正確な教師データを取得することができる。つまり、各CG物体は、CG処理により生成したものであるので、各CG物体を背景画像上に投影したとき、各CG物体が占める画像領域がどこになるのか、各CG物体の姿勢(向き)はどのようになっているかを計算により正確に求めることができる。その結果、学習用データ生成方法で取得された学習用画像データを用いて生成した、各CG物体の位置や姿勢を特定する学習用位置ラベルや学習用姿勢ラベルは、極めて正確なものとなる。 In this learning data generation method, a CG object whose three-dimensional position in the three-dimensional space from which the background image was acquired is known is rendered to the background image to acquire the learning image. In the above, extremely accurate teacher data can be acquired by acquiring the learning position label and the learning attitude label that specify the position and attitude of each CG object. That is, since each CG object is generated by CG processing, when each CG object is projected onto the background image, the position (orientation) of each CG object is where the image area occupied by each CG object is. It is possible to accurately calculate how it is. As a result, the learning position label and the learning posture label that specify the position and posture of each CG object, which are generated using the learning image data acquired by the learning data generation method, are extremely accurate.
 さらに、この学習用データ生成方法では、CG処理により、人手を介することなく、自動でCG物体を生成することができる。そして、この学習用データ生成方法では、生成したCG物体を背景画像に投影することで(レンダリング処理を行うことで)、短時間に多量の学習用画像Img1を生成することができる。 Furthermore, with this learning data generation method, a CG object can be automatically generated by CG processing without human intervention. In this learning data generation method, a large number of learning images Img1 can be generated in a short time by projecting the generated CG object on the background image (by performing the rendering process).
 したがって、学習用データ生成方法により、物体検出処理や姿勢検出等を実行するときに用いられる学習済みモデルを取得するために、学習処理時に必要となる学習用データを短時間に多量に取得することができる。 Therefore, in order to acquire the learned model used when executing the object detection processing and the posture detection by the learning data generation method, it is necessary to acquire a large amount of learning data necessary for the learning processing in a short time. You can
 そして、この学習用データ生成方法により取得された、多量であり、かつ、極めて正確な教師データを用いて、学習処理を行うことで、例えば、物体検出処理や姿勢検出等を実行するときに用いられる学習済みモデルを高精度に、かつ、効率的に取得することでできる。 Then, by performing learning processing using a large amount of extremely accurate teacher data acquired by this learning data generation method, for example, when performing object detection processing, posture detection, etc. It is possible to obtain the trained model with high accuracy and efficiently.
 なお、「背景画像に合成する」ために、例えば、3D(3次元)座標データを射影変換して2D(2次元)データを取得すればよい。 Note that in order to “composite with the background image”, for example, 3D (3D) coordinate data may be projectively transformed to obtain 2D (2D) data.
 第2の発明は、第1の発明であって、学習用位置ラベル取得ステップをさらに備える。 The second invention is the first invention and further comprises a learning position label acquisition step.
 学習用位置ラベル取得ステップは、学習用画像データから、レンダリング画像上において、CG物体を囲む領域である2次元バウンディング領域を設定し、2次元バウンディングの座標情報を学習用位置ラベルとして取得する。 The learning position label acquisition step sets a two-dimensional bounding area that is an area surrounding the CG object on the rendered image from the learning image data, and acquires coordinate information of the two-dimensional bounding as a learning position label.
 これにより、この学習用データ生成方法では、CG処理により生成したCG物体を背景画像上にレンダリングして合成することで取得した学習用画像(レンダリング画像)と、学習用画像(レンダリング画像)上において、各CG物体の位置を特定する学習用位置ラベル(各CG物体の2Dバウンディングボックスの座標データ)とを取得することができる。この学習用データ生成方法では、3次元空間内での3次元位置が分かっているCG物体を、背景画像にレンダリングして学習用画像を取得し、当該学習用画像において、各CG物体の位置を特定する学習用位置ラベル(例えば、各CG物体の2Dバウンディングボックスの座標データ)を特定するので、極めて正確な教師データを取得することができる。つまり、各CG物体は、この学習用データ生成方法において、CG処理により生成したものであるので、各CG物体を背景画像上に投影したとき、各CG物体が占める画像領域がどこになるのかを計算により正確に求めることができる。その結果、各CG物体の位置を特定する学習用位置ラベル(各CG物体の2Dバウンディングボックスの座標データ)は、極めて正確なものとなる。 As a result, in this learning data generation method, the learning image (rendering image) acquired by rendering and synthesizing the CG object generated by the CG processing on the background image is combined with the learning image (rendering image). , And the position label for learning (the coordinate data of the 2D bounding box of each CG object) that specifies the position of each CG object can be acquired. In this learning data generation method, a CG object whose three-dimensional position in the three-dimensional space is known is rendered on a background image to acquire a learning image, and the position of each CG object is acquired in the learning image. Since the specified learning position label (for example, the coordinate data of the 2D bounding box of each CG object) is specified, extremely accurate teacher data can be acquired. That is, since each CG object is generated by CG processing in this learning data generation method, when each CG object is projected onto the background image, the position of the image area occupied by each CG object is calculated. Can be obtained more accurately. As a result, the learning position label (the coordinate data of the 2D bounding box of each CG object) that specifies the position of each CG object becomes extremely accurate.
 さらに、この学習用データ生成方法では、CG処理により、人手を介することなく、自動でCG物体を生成することができる。そして、この学習用データ生成方法では、生成したCG物体を背景画像に投影することで(レンダリング処理を行うことで)、短時間に多量の学習用画像Img1と、学習用位置ラベル(各CG物体の2Dバウンディングボックスの座標データ)とを生成することができる。 Furthermore, with this learning data generation method, a CG object can be automatically generated by CG processing without human intervention. In this learning data generation method, a large amount of learning images Img1 and learning position labels (each CG object) are projected in a short time by projecting the generated CG object on the background image (by performing rendering processing). 2D bounding box coordinate data) and
 したがって、この学習用データ生成方法では、物体検出処理等を実行するときに用いられる学習済みモデルを取得するために、学習処理時に必要となる学習用データを短時間に多量に取得することができる。 Therefore, in this learning data generation method, a large amount of learning data necessary for the learning process can be acquired in a short time in order to acquire the learned model used when executing the object detection process or the like. ..
 そして、この学習用データ生成方法により取得された、多量であり、かつ、極めて正確な教師データを用いて、学習処理を行うことで、例えば、物体検出処理を実行するときに用いられる学習済みモデルを高精度に、かつ、効率的に取得することでできる。 Then, by performing a learning process using a large amount of extremely accurate teacher data acquired by this learning data generation method, for example, a learned model used when executing an object detection process. Can be obtained with high accuracy and efficiency.
 第3の発明は、第1の発明であって、姿勢検出用画像データ取得ステップと、姿勢検出用学習データ取得ステップと、をさらに備える。 The third invention is the first invention, and further comprises a posture detection image data acquisition step and a posture detection learning data acquisition step.
 姿勢検出用画像データ取得ステップは、学習用画像データから、レンダリング画像上において、CG物体を囲む画像領域を抽出することで取得した画像であるクロップ画像を姿勢検出用画像データとして取得する。 In the attitude detection image data acquisition step, a cropped image, which is an image acquired by extracting an image area surrounding a CG object on the rendering image from the learning image data, is acquired as attitude detection image data.
 姿勢検出用学習データ取得ステップは、姿勢検出用画像データに含まれるCG物体の姿勢に関する情報と姿勢検出用画像データとを対応付けたデータを姿勢検出用学習データとして取得する。 The posture detection learning data acquisition step acquires, as posture detection learning data, data in which the information regarding the posture of the CG object included in the posture detection image data and the posture detection image data are associated with each other.
 この学習用データ生成方法では、CG処理により生成したCG物体を背景画像上にレンダリングして合成することで取得したレンダリング画像から、CG物体毎に取得したクロップ画像と、当該クロップ画像内のCG物体の姿勢を特定する姿勢ラベルとを取得することができる。 According to this learning data generation method, a crop image acquired for each CG object and a CG object in the crop image from a rendering image acquired by rendering and compositing a CG object generated by CG processing on a background image. It is possible to obtain a posture label that specifies the posture of the.
 この学習用データ生成方法では、3次元空間内での3次元位置、姿勢が分かっているCG物体を、背景画像にレンダリングしてレンダリング画像を取得し、当該レンダリング画像において、各CG物体の位置を特定する2Dバウンディングボックスで規定される領域をクロップ領域に特定するので、各CG物体を含むクロップ画像を極めて正確に取得することができる。 In this learning data generation method, a CG object whose three-dimensional position and orientation in a three-dimensional space are known is rendered on a background image to obtain a rendering image, and the position of each CG object is obtained in the rendering image. Since the area defined by the specified 2D bounding box is specified as the crop area, the crop image including each CG object can be acquired extremely accurately.
 さらに、クロップ画像に含まれるCG物体は、学習用データ生成方法においてCG処理により生成したものであるので、各CG物体を背景画像上に投影したとき、各CG物体の姿勢がどのようになるのかを計算により正確に求めることができる。その結果、クロップ画像上において、各CG物体の姿勢を特定する学習用姿勢ラベル(各CG物体のクロップ画像上での姿勢を特定するデータ(例えば、クラスの番号))は、極めて正確なものとなる。 Further, since the CG objects included in the cropped image are generated by the CG processing in the learning data generation method, what is the posture of each CG object when each CG object is projected on the background image. Can be calculated accurately. As a result, the learning posture label that identifies the orientation of each CG object on the cropped image (data that identifies the orientation of each CG object on the cropped image (for example, the class number)) is extremely accurate. Become.
 さらに、この学習用データ生成方法では、CG処理により、人手を介することなく、自動でCG物体を生成することができる。そして、この学習用データ生成方法では、生成したCG物体を背景画像に投影することで(レンダリング処理を行うことで)、短時間に多量の学習用画像(各CG物体のクロップ画像)と、学習用姿勢ラベル(各CG物体のクロップ画像上での姿勢を特定するデータ(例えば、クラスの番号))とを生成することができる。 Furthermore, with this learning data generation method, a CG object can be automatically generated by CG processing without human intervention. In this learning data generation method, a large amount of learning images (cropped images of each CG object) are learned in a short time by projecting the generated CG object on the background image (by performing rendering processing). Orientation label (data (for example, a class number) that identifies the orientation of each CG object on the cropped image) can be generated.
 したがって、この学習用データ生成方法では、姿勢検出処理等を実行するときに用いられる学習済みモデルを取得するために、学習処理時に必要となる学習用データを短時間に多量に取得することができる。 Therefore, in this learning data generation method, a large amount of learning data necessary for the learning process can be acquired in a short time in order to acquire the learned model used when executing the posture detection process and the like. ..
 そして、この学習用データ生成方法により取得された、多量であり、かつ、極めて正確な教師データを用いて、学習処理を行うことで、例えば、姿勢検出処理を実行するときに用いられる学習済みモデルを高精度に、かつ、効率的に取得することでできる。 Then, the learning process is performed using a large amount of and extremely accurate teacher data acquired by the learning data generation method, for example, a learned model used when executing the posture detection process. Can be obtained with high accuracy and efficiency.
 第4の発明は、第1から第3のいずれかの発明であって、学習用画像データ取得ステップは、背景画像に実物の処理対象物体が含まれている場合、当該処理対象物体を含む画像領域以外の画像領域に、CG物体が配置されるようにレンダリング画像を生成する。 A fourth invention is any one of the first to the third invention, and in the learning image data acquisition step, when the background image includes an actual processing target object, an image including the processing target object is included. A rendering image is generated so that a CG object is arranged in an image area other than the area.
 これにより、この学習用データ生成方法では、例えば、手動で設定された2Dバウンディングボックスの画像領域(実物の処理対象物体が含まれている画像領域)以外の領域に、CG物体をレンダリングすることで、学習用データを生成する処理を実行することができる。 Thus, in this learning data generation method, for example, by rendering the CG object in an area other than the image area of the 2D bounding box that is manually set (the image area including the actual processing target object). , Processing for generating learning data can be executed.
 第5の発明は、第1の発明であって、背景画像は、第1物体を含む画像である。 The fifth invention is the first invention, and the background image is an image including the first object.
 CG物体は、少なくとも一部が第1物体の表面上に配置されるように、背景画像に合成される。 The CG object is combined with the background image so that at least a part of it is arranged on the surface of the first object.
 これにより、この学習用データ生成方法では、少なくとも一部が第1物体の表面上に配置される背景画像による学習用データを生成することができる。 With this, in this learning data generation method, it is possible to generate learning data based on the background image, at least a part of which is arranged on the surface of the first object.
 なお、「第1物体」とは、例えば、サイズが既知である任意の物体である。第1物体は、例えば、サイズが既知である直方体の物体である。 The “first object” is, for example, an arbitrary object whose size is known. The first object is, for example, a rectangular parallelepiped object whose size is known.
 第6の発明は、第1の発明であって、背景画像取得ステップは、前記背景画像に、第1物体を含む画像を合成することで第1背景画像を取得する。 A sixth invention is the first invention, and in the background image acquisition step, the first background image is acquired by combining the background image with an image including a first object.
 CG物体は、少なくとも一部が第1物体の表面上に配置されるように、第1背景画像に合成される。 The CG object is combined with the first background image so that at least a part of the CG object is arranged on the surface of the first object.
 これにより、この学習用データ生成方法では、第1物体が写っていない背景画像に対して、第1物体の画像を合成することで、実際に第1物体が写っている背景画像と同様の画像である第1背景画像を取得することができる。そして、この学習用データ生成方法では、背景画像の代わりに、第1背景画像を用いて、学習用データの生成処理を行うことができる。 With this, in this learning data generation method, the image of the first object is combined with the background image in which the first object is not captured, so that an image similar to the background image in which the first object is actually captured. The first background image that is In this learning data generation method, the learning data generation process can be performed using the first background image instead of the background image.
 第7の発明は、第5または第6の発明であって、CG物体は、第1物体において鍵穴を形成する形状を有している。 The seventh invention is the fifth or sixth invention, wherein the CG object has a shape that forms a keyhole in the first object.
 これにより、この学習用データ生成方法では、第1物体の表面上に鍵穴を形成する形状を合成した画像による学習用データを生成することができる。 With this, with this learning data generation method, it is possible to generate learning data by an image in which the shape that forms the keyhole is synthesized on the surface of the first object.
 第8の発明は、背景画像データ取得部と、学習用画像データ取得部と、を備える学習用データ生成装置である。 The eighth invention is a learning data generation device including a background image data acquisition unit and a learning image data acquisition unit.
 背景画像データ取得部は、所定の3次元空間を撮像して取得した背景画像を取得する。 The background image data acquisition unit acquires a background image acquired by imaging a predetermined three-dimensional space.
 学習用画像データ取得部は、物体の形状およびテクスチャーの少なくとも1つを含むコンピュータグラフィックス処理用のデータであるCG物体生成用データを取得し、取得したCG物体生成用データに基づいて生成されるCG物体を、背景画像の撮像対象とした3次元空間内の所定の座標位置に配置されるように背景画像に合成することで取得される画像であるレンダリング画像を学習用画像データとして取得する。 The learning image data acquisition unit acquires CG object generation data that is data for computer graphics processing that includes at least one of an object shape and texture, and is generated based on the acquired CG object generation data. A rendering image, which is an image obtained by combining a CG object with a background image so as to be arranged at a predetermined coordinate position in a three-dimensional space where the background image is captured, is obtained as learning image data.
 これにより、第1の発明と同様の効果を奏する学習用データ生成装置を実現することができる。 With this, it is possible to realize a learning data generation device that achieves the same effects as the first invention.
 第9の発明は、学習済みモデル取得ステップと、予測処理ステップと、を備える推論処理方法である。 The ninth invention is an inference processing method including a learned model acquisition step and a prediction processing step.
 学習済みモデル取得ステップは、第5から第7のいずれかの発明である学習用データ生成方法により取得した学習用データを用いて、学習処理を実行することで、学習済みモデルを取得する。 The learned model acquisition step acquires a learned model by executing a learning process using the learning data acquired by the learning data generating method according to any one of the fifth to seventh inventions.
 予測処理ステップは、第1物体の表面上に配置されている所定の形状を含む画像を入力とし、学習済みモデルによる予測処理を実行することで、所定の形状の位置を特定するためのデータを出力する。 In the prediction processing step, an image including a predetermined shape arranged on the surface of the first object is input, and a prediction process using a learned model is executed to obtain data for identifying the position of the predetermined shape. Output.
 これにより、この推論処理方法では、所定の形状の位置を特定するためのデータ(推論結果データ)を取得することができる。 With this, this inference processing method can acquire data (inference result data) for specifying the position of a predetermined shape.
 第10の発明は、第9の発明であって、検出精度判定ステップと、撮影パラメータ調整ステップと、をさらに備える。 The tenth invention is the ninth invention, and further includes a detection accuracy determination step and an imaging parameter adjustment step.
 検出精度判定ステップは、所定の形状の位置を特定するためのデータの検出精度を判定する。 The detection accuracy determination step determines the detection accuracy of the data for identifying the position of the predetermined shape.
 撮影パラメータ調整ステップは、第1物体の表面上に配置されている所定の形状を含む画像を撮像する撮像装置の撮影パラメータを調整する。 The image capturing parameter adjusting step adjusts the image capturing parameter of the image capturing device which captures an image including a predetermined shape, which is disposed on the surface of the first object.
 そして、所定の形状の位置を特定するためのデータの検出精度が所定の閾値よりも低い場合、撮影パラメータ調整ステップが撮像装置の撮影パラメータを変更した後、予測処理ステップは、予測処理を実行する。 Then, when the detection accuracy of the data for specifying the position of the predetermined shape is lower than the predetermined threshold value, after the shooting parameter adjustment step changes the shooting parameter of the imaging device, the prediction processing step executes the prediction processing. ..
 これにより、この推論処理方法では、所定の形状の位置を特定するためのデータ(推論結果データ)の精度が不十分である場合、撮像装置の撮影パラメータを調整し、高精度に推論処理ができる可能性の高い画像を用いて、予測処理を実行することができる。 As a result, with this inference processing method, if the accuracy of the data (inference result data) for identifying the position of the predetermined shape is insufficient, the inference processing can be performed with high accuracy by adjusting the shooting parameters of the imaging device. The prediction process can be executed using an image with a high possibility.
 なお、第1物体の大きさ(実際の大きさ)が既知である場合、(1)撮像装置の焦点距離(撮影パラメータの一例)と、(2)当該焦点距離により撮像装置で撮像した画像(撮像画像)における、全画像領域に対する対象物体(第1物体)に相当する画像領域が占有する割合とから、撮像装置から対象物体(第1物体)までの3次元距離を取得することができる。したがって、予測処理ステップでは、上記のようにして取得した撮像装置から対象物体(第1物体)までの3次元距離も用いて、予測処理が実行されるものであってもよい。 When the size (actual size) of the first object is known, (1) the focal length of the imaging device (an example of the imaging parameter), and (2) the image captured by the imaging device with the focal length ( The three-dimensional distance from the imaging device to the target object (first object) can be obtained from the ratio of the image area corresponding to the target object (first object) to the entire image area in the captured image). Therefore, in the prediction processing step, the prediction processing may be executed by using the three-dimensional distance from the imaging device acquired as described above to the target object (first object).
 本発明によれば、物体検出処理、姿勢検出処理等を実行するときに用いられる学習済みモデルを取得するために、学習処理時に必要となる学習用データを短時間に多量に取得できる学習用データ生成方法を実現することができる。 According to the present invention, in order to acquire the learned model used when executing the object detection process, the posture detection process, etc., the learning data required for the learning process can be acquired in large amount in a short time. A generation method can be realized.
第1実施形態に係る学習用データ生成システム1000の概略構成図。1 is a schematic configuration diagram of a learning data generation system 1000 according to the first embodiment. 物体検出処理の学習用データを生成する場合において、学習用データ生成システム1000が実行する処理のフローチャート。7 is a flowchart of processing executed by the learning data generation system 1000 when generating learning data for the object detection processing. 背景画像を取得するための3次元空間SP1(部屋Rm1内の3次元空間)を模式的に示した図。The figure which showed typically three-dimensional space SP1 (three-dimensional space in room Rm1) for acquiring a background image. 背景画像Img0(一例)を示す図。The figure which shows the background image Img0 (one example). N個(N=9)のCG物体CG_obj1~CG_obj9を、背景画像Img0へ投影して合成するレンダリング処理により取得された画像Img1(レンダリング画像Img1)を示す図。The figure which shows the image Img1 (rendering image Img1) acquired by the rendering process which projects and synthesize|combines N (N=9) CG objects CG_obj1 to CG_obj9 to the background image Img0. N個(N=9)のCG物体CG_obj1~CG_obj9を、背景画像Img0へ投影して合成するレンダリング処理により取得された画像Img1(レンダリング画像Img1)において、各CG物体のバウンディングボックスを矩形で明示した画像を示す図。In the image Img1 (rendering image Img1) acquired by the rendering process in which N (N=9) CG objects CG_obj1 to CG_obj9 are projected onto the background image Img0 and combined, the bounding box of each CG object is clearly indicated by a rectangle. The figure which shows an image. 第1実施形態の第1変形例の学習用データ生成システムにより、N個(N=9)のCG物体CG_obj1~CG_obj9を、背景画像Img0へ投影して合成するレンダリング処理により取得された画像Img1A(レンダリング画像Img1A)を示す図。With the learning data generation system of the first modified example of the first embodiment, the image Img1A(N(9=9) CG objects CG_obj1 to CG_obj9 acquired by the rendering process of projecting and synthesizing on the background image Img0( The figure which shows rendering image Img1A). N個(N=9)のCG物体CG_obj1~CG_obj9を、背景画像Img0へ投影して合成するレンダリング処理により取得された画像Img1A(レンダリング画像Img1A)において、各CG物体のバウンディングボックスを矩形で明示した画像を示す図。In the image Img1A (rendering image Img1A) acquired by the rendering process in which N (N=9) CG objects CG_obj1 to CG_obj9 are projected onto the background image Img0 and combined, the bounding box of each CG object is shown as a rectangle. The figure which shows an image. 第2実施形態に係る学習用データ生成システム2000の概略構成図。The schematic block diagram of the learning data generation system 2000 which concerns on 2nd Embodiment. CG物体の姿勢を特定する方法を説明するための図。The figure for demonstrating the method of pinpointing the posture of a CG object. 姿勢検出処理の学習用データを生成する場合において、学習用データ生成システム2000が実行する処理のフローチャート。9 is a flowchart of a process executed by the learning data generation system 2000 when generating learning data for the posture detection process. N個(N=10)のCG物体CG_obj1~CG_obj10を、背景画像Img0へ投影して合成するレンダリング処理により取得された画像Img2(レンダリング画像Img2)を示す図。The figure which shows the image Img2 (rendering image Img2) acquired by the rendering process which projects and synthesize|combines N (N=10) CG objects CG_obj1-CG_obj10 to the background image Img0. N個(N=10)のCG物体CG_obj1~CG_obj10を、背景画像Img0へ投影して合成するレンダリング処理により取得された画像Img2A(レンダリング画像Img2A)において、各CG物体のバウンディングボックス(クロップする画像領域に相当)を矩形で明示した画像を示す図。In the image Img2A (rendering image Img2A) acquired by the rendering process in which N (N=10) CG objects CG_obj1 to CG_obj10 are projected onto the background image Img0 and combined, the bounding box (the image area to be cropped) of each CG object (Corresponding to) is a diagram showing an image in which a rectangle is specified. N個(N=10)のCG物体CG_obj1~CG_obj9のクロップ画像Img_crop(1)~Img_crop(9)と、判定されたクラスの番号を示す図。FIG. 9 is a diagram showing cropped images Img_crop(1) to Img_crop(9) of N (N=10) CG objects CG_obj1 to CG_obj9 and the number of the determined class. 第3実施形態に係る学習用データ生成システム3000の概略構成図。The schematic block diagram of the learning data generation system 3000 which concerns on 3rd Embodiment. 検出対象物体(実物)Real_objが写っている背景画像Img0Aを示す図。The figure which shows the background image Img0A in which the detection target object (real thing) Real_obj is reflected. 検出対象物体(実物)Real_objが写っている背景画像Img0Aに手動で設定された2DバウンディングボックスBbox_manualを示した図。The figure which showed 2D bounding box Bbox_manual manually set to the background image Img0A in which the detection target object (real thing) Real_obj was reflected. 検出対象物体(実物)Real_objが写っている背景画像Img0Aに、CG物体をレンダリングして取得されたレンダリング画像Img3を示す図。The figure which shows the rendering image Img3 acquired by rendering a CG object in the background image Img0A in which the detection target object (real thing) Real_obj is reflected. 第4実施形態に係る学習用データ生成システム4000の概略構成図。The schematic block diagram of the learning data generation system 4000 which concerns on 4th Embodiment. 背景画像Img4を示す図。The figure which shows the background image Img4. 背景画像Img4を示す図。The figure which shows the background image Img4. 学習用データ生成システム4000が実行する処理のフローチャート。The flowchart of the process which the learning data generation system 4000 performs. 抽出画像に鍵穴を合成する処理を説明するための図。The figure for demonstrating the process which synthesize|combines a keyhole with the extraction image. 抽出画像に鍵穴を合成する処理を説明するための図。The figure for demonstrating the process which synthesize|combines a keyhole with the extraction image. 第4実施形態に係る学習推論処理システムSys1の概略構成図。The schematic block diagram of the learning inference processing system Sys1 which concerns on 4th Embodiment. 第4実施形態に係る学習処理装置200の概略構成図。The schematic block diagram of the learning processing apparatus 200 which concerns on 4th Embodiment. 第4実施形態に係る推論処理装置300の概略構成図。The schematic block diagram of the inference processing apparatus 300 which concerns on 4th Embodiment. 推論処理装置300の推論処理のフローチャート。The flowchart of the inference process of the inference processing apparatus 300. 入力画像Img5を示す図。The figure which shows the input image Img5. ズーム画像についての説明図。Explanatory drawing about a zoom image. CPUバス構成を示す図。The figure which shows a CPU bus structure.
 [第1実施形態]
 第1実施形態について、図面を参照しながら、以下、説明する。
[First Embodiment]
The first embodiment will be described below with reference to the drawings.
 <1.1:学習用データ生成システムの構成>
 図1は、第1実施形態に係る学習用データ生成システム1000の概略構成図である。
<1.1: Configuration of learning data generation system>
FIG. 1 is a schematic configuration diagram of a learning data generation system 1000 according to the first embodiment.
 学習用データ生成システム1000は、図1に示すように、背景画像データ格納部DB1と、学習用データ生成装置100と、学習用データ格納部DB2とを備える。 As shown in FIG. 1, the learning data generation system 1000 includes a background image data storage unit DB1, a learning data generation device 100, and a learning data storage unit DB2.
 背景画像データ格納部DB1は、所定の3次元空間を撮像して取得された背景画像データを格納するための機能部である。背景画像データ格納部DB1は、例えば、データベースにより実現される。背景画像データ格納部DB1には、所定の3次元空間を撮像して取得した画像と、当該画像を取得したときの撮像対象の3次元空間を特定するための情報(例えば、撮影パラメータ(撮像点(カメラの位置(例えば、撮像素子の撮像素子面の中心点))、焦点位置、焦点距離、画角、視野角、カメラ光学系の光軸等))とが格納される。 The background image data storage unit DB1 is a functional unit for storing the background image data acquired by imaging a predetermined three-dimensional space. The background image data storage unit DB1 is realized by, for example, a database. The background image data storage unit DB1 includes an image acquired by capturing an image of a predetermined three-dimensional space and information for specifying the three-dimensional space of the image capturing target when the image is captured (for example, the capturing parameter (imaging point (The position of the camera (for example, the center point of the image sensor surface of the image sensor)), the focus position, the focal length, the angle of view, the viewing angle, the optical axis of the camera optical system, etc.) are stored.
 学習用データ生成装置100は、図1に示すように、背景画像データ取得部1と、CG処理部2(CG:Computer Graphics)と、レンダリング処理部3と、学習用データ生成部4とを備える。 As shown in FIG. 1, the learning data generation device 100 includes a background image data acquisition unit 1, a CG processing unit 2 (CG: Computer Graphics), a rendering processing unit 3, and a learning data generation unit 4. ..
 背景画像データ取得部1は、背景画像データ格納部DB1から、所定の背景画像データ(背景画像と当該背景画像を取得したときの撮像対象の3次元空間を特定するための情報とを含むデータ)を取得する。そして、背景画像データ取得部1は、背景画像データから抽出した背景画像をデータD1としてレンダリング処理部3に出力する。また、背景画像データ取得部1は、背景画像データから抽出した背景画像を取得したときの撮像対象の3次元空間を特定するための情報(3次元空間の形状情報)をデータInfo_3D_spaceとして、CG処理部2およびレンダリング処理部3に出力する。 The background image data acquisition unit 1 acquires predetermined background image data from the background image data storage unit DB1 (data including a background image and information for specifying a three-dimensional space of an imaging target when the background image is acquired). To get Then, the background image data acquisition unit 1 outputs the background image extracted from the background image data to the rendering processing unit 3 as the data D1. Further, the background image data acquisition unit 1 uses the information (shape information of the three-dimensional space) for specifying the three-dimensional space of the imaging target when the background image extracted from the background image data is acquired, as data Info_3D_space, and performs the CG processing. Output to the unit 2 and the rendering processing unit 3.
 CG処理部2は、背景画像を撮像した3次元空間に配置するCG物体(CGにより生成される物体)を生成し、当該CG物体を背景画像に合成するために必要なデータを生成する処理部である。CG処理部2は、図1に示すように、3D配置座標決定部21と、姿勢決定部22と、衝突検出部23と、テクスチャー設定部24と、3D-2D変換部25とを備える。 The CG processing unit 2 generates a CG object (object generated by CG) arranged in a three-dimensional space in which a background image is captured, and generates processing data necessary for synthesizing the CG object with the background image. Is. As shown in FIG. 1, the CG processing unit 2 includes a 3D arrangement coordinate determination unit 21, a posture determination unit 22, a collision detection unit 23, a texture setting unit 24, and a 3D-2D conversion unit 25.
 3D配置座標決定部21は、データInfo_3D_spaceにより特定される3次元空間内に配置させるCG物体(CGにより生成したオブジェクト)の座標情報を取得する。例えば、3D配置座標決定部21は、乱数を使用して、上記3次元空間内に配置させるCG物体の座標情報を取得する。 The 3D placement coordinate determination unit 21 acquires coordinate information of a CG object (object generated by CG) to be placed in the three-dimensional space specified by the data Info_3D_space. For example, the 3D arrangement coordinate determination unit 21 acquires the coordinate information of the CG object to be arranged in the three-dimensional space, using a random number.
 姿勢決定部22は、データInfo_3D_spaceにより特定される3次元空間内に配置させるCG物体の姿勢を決定するための情報を取得する。 The posture determination unit 22 acquires information for determining the posture of the CG object to be arranged in the three-dimensional space specified by the data Info_3D_space.
 衝突検出部23は、データInfo_3D_spaceにより特定される3次元空間内に配置させるCG物体が複数ある場合、各CG物体が物理的に配置できない領域に配置されるように設定されていないかを検出する。 When there are a plurality of CG objects to be arranged in the three-dimensional space specified by the data Info_3D_space, the collision detection unit 23 detects whether or not each CG object is set to be arranged in an area where it cannot be physically arranged. ..
 テクスチャー設定部24は、各CG物体の表面に貼り付けるテクスチャーを設定する。なお、テクスチャー設定部24は、例えば、複数のパターンのテクスチャーのデータを保持しており、任意のパターンごとにテクスチャーを設定することができる。 The texture setting unit 24 sets a texture to be attached to the surface of each CG object. Note that the texture setting unit 24 holds, for example, texture data of a plurality of patterns, and the texture can be set for each arbitrary pattern.
 3D-2D変換部25は、データInfo_3D_spaceにより特定される3次元空間内に配置させるCG物体を、背景画像に合成する場合の当該背景画像上の2次元座標を、当該CG物体の3次元空間内の3次元座標を3D-2D変換(射影変換)することで取得する。 The 3D-2D conversion unit 25 calculates the two-dimensional coordinates on the background image when the CG object to be arranged in the three-dimensional space specified by the data Info_3D_space is combined with the background image in the three-dimensional space of the CG object. The 3D coordinate of is acquired by 3D-2D conversion (projective conversion).
 CG処理部2は、CG処理部2に含まれる上記の各機能部により取得した情報を含むデータをデータData_CG_objとして、レンダリング処理部3に出力する。また、CG処理部2は、CG処理部2により生成されたCG物体を背景画像上に表示させた場合に、当該CG物体を囲む画像領域の境界を規定するバウンディングボックスの情報を学習用データ生成部4に出力する。なお、CG処理部2によりN個(N:自然数)のCG物体が生成された場合、i番目(i:自然数、1≦i≦N)のCG物体のバウンディングボックスの情報を「Data_for_training(BBox(i))」と表記する。 The CG processing unit 2 outputs the data including the information acquired by each of the functional units included in the CG processing unit 2 to the rendering processing unit 3 as data Data_CG_obj. Further, when the CG object generated by the CG processing unit 2 is displayed on the background image, the CG processing unit 2 generates information for the bounding box that defines the boundary of the image area surrounding the CG object as learning data generation. Output to section 4. In addition, when N (N: natural number) CG objects are generated by the CG processing unit 2, the information of the bounding box of the i-th (i: natural number, 1≦i≦N) CG object is set to “Data_for_training(BBox( i))”.
 レンダリング処理部3は、背景画像データ取得部1から出力される背景画像D1およびデータInfo_3D_spaceと、CG処理部2から出力されるデータData_CG_objとを入力する。レンダリング処理部3は、データInfo_3D_spaceと、データData_CG_objとに基づいて、CG処理部2により生成されたCG物体を、背景画像D1に合成することで、合成画像データD2(合成画像Img1の画像データ)を取得し、取得した合成画像データD2を学習用データ生成部4に出力する。 The rendering processing unit 3 inputs the background image D1 and the data Info_3D_space output from the background image data acquisition unit 1, and the data Data_CG_obj output from the CG processing unit 2. The rendering processing unit 3 combines the CG object generated by the CG processing unit 2 with the background image D1 based on the data Info_3D_space and the data Data_CG_obj, to thereby generate the combined image data D2 (image data of the combined image Img1). Is acquired, and the acquired combined image data D2 is output to the learning data generation unit 4.
 学習用データ生成部4は、レンダリング処理部3から出力される合成画像データD2と、CG処理部2から出力されるCG物体のバウンディングボックスの情報を含むデータData_coordinate(BBox(i))とを入力する。学習用データ生成部4は、入力されたデータから学習用データを生成し、生成したデータをデータDoutとして、例えば、学習用データ格納部DB2に出力する。 The learning data generation unit 4 inputs the combined image data D2 output from the rendering processing unit 3 and the data Data_coordinate(BBox(i)) including the bounding box information of the CG object output from the CG processing unit 2. To do. The learning data generation unit 4 generates learning data from the input data and outputs the generated data as data Dout to, for example, the learning data storage unit DB2.
 学習用データ格納部DB2は、学習用データ生成部4から出力されるデータDoutを入力し、当該データを記憶保持する。学習用データ格納部DB2は、例えば、データベースにより実現される。 The learning data storage unit DB2 receives the data Dout output from the learning data generation unit 4 and stores and holds the data. The learning data storage unit DB2 is realized by, for example, a database.
 なお、「学習用画像データ取得部」は、CG処理部2と、レンダリング処理部3と、学習用データ生成部4により、実現される機能部である。 The “learning image data acquisition unit” is a functional unit realized by the CG processing unit 2, the rendering processing unit 3, and the learning data generation unit 4.
 <1.2:学習用データ生成システムの動作>
 以上のように構成された学習用データ生成システム1000の動作について、以下、説明する。
<1.2: Operation of learning data generation system>
The operation of the learning data generation system 1000 configured as above will be described below.
 なお、以下では、学習用データ生成システム1000において、物体検出処理の学習用データを生成する場合について、説明する。また、説明便宜のため、物体検出処理における検出対象の物体が、略直方体の形状を有しているものとする。 In the following, a case will be described in which the learning data generation system 1000 generates learning data for object detection processing. For convenience of explanation, it is assumed that the object to be detected in the object detection process has a substantially rectangular parallelepiped shape.
 図2は、物体検出処理の学習用データを生成する場合において、学習用データ生成システム1000が実行する処理のフローチャートである。 FIG. 2 is a flowchart of a process executed by the learning data generation system 1000 when generating learning data for the object detection process.
 図3は、背景画像を取得するための3次元空間SP1(部屋Rm1内の3次元空間)を模式的に示した図である。図3は、部屋Rm1を上方から見た図であり、部屋Rm1内に、カメラCam1が配置されており、3次元空間(撮像対象空間)SP1を、画角α、カメラCam1の光学系の光軸を光軸Ax1として撮像することで、背景画像Img0(一例)を取得(撮像)するものとする。また、図3に示すように、x軸、y軸、z軸が設定されるものとする。 FIG. 3 is a diagram schematically showing a three-dimensional space SP1 (three-dimensional space in the room Rm1) for acquiring a background image. FIG. 3 is a view of the room Rm1 as seen from above, in which the camera Cam1 is disposed, the three-dimensional space (imaging target space) SP1 is set to the angle of view α, and the light of the optical system of the camera Cam1. It is assumed that the background image Img0 (an example) is acquired (imaged) by imaging the axis as the optical axis Ax1. Further, as shown in FIG. 3, it is assumed that the x axis, the y axis, and the z axis are set.
 図4は、背景画像Img0(一例)を示す図である。 FIG. 4 is a diagram showing a background image Img0 (an example).
 (ステップS11):
 ステップS11において、背景画像データ取得部1は、背景画像データ格納部DB1から1つの背景画像データを取得する。なお、説明便宜のため、背景画像データ取得部1は、背景画像データ格納部DB1から、図3の状況によりカメラCam1により撮像された背景画像Img0(図4)を取得するものとし、以下、この場合について、説明する。
(Step S11):
In step S11, the background image data acquisition unit 1 acquires one background image data from the background image data storage unit DB1. For convenience of explanation, it is assumed that the background image data acquisition unit 1 acquires the background image Img0 (FIG. 4) captured by the camera Cam1 according to the situation of FIG. 3 from the background image data storage unit DB1. The case will be described.
 (ステップS12~S14):
 ステップS12において、CG処理部2は、CG物体を3次元空間SPに配置するときに、CG物体が積み重なった状態で配置される最大の数を設定し、当該数を超えた数でCG物体が積み重なった状態とならないようにする。
(Steps S12 to S14):
In step S12, the CG processing unit 2 sets the maximum number of CG objects arranged in a stacked state when arranging the CG objects in the three-dimensional space SP, and the CG objects exceed the number when the CG objects are arranged. Avoid stacking.
 テクスチャー設定部24は、各CG物体の表面に貼り付けるテクスチャーを設定する。なお、本実施形態では、1つのパターンのテクスチャーを各CG物体に貼り付けるものとする。つまり、CG処理部2により、1種類のCG物体が生成されるものとする。 The texture setting unit 24 sets a texture to be attached to the surface of each CG object. In the present embodiment, one pattern texture is attached to each CG object. That is, it is assumed that the CG processing unit 2 generates one type of CG object.
 3D配置座標決定部21は、データInfo_3D_spaceにより特定される3次元空間SP1内に配置させるCG物体(CGにより生成したオブジェクト)の形状情報(3次元座標情報)を取得する。3D配置座標決定部21は、乱数を使用して、3次元空間SP1内に配置させるCG物体の座標情報を取得する(ステップS13)。なお、CG物体は、N個生成されるものとし、i番目のCG物体の3次元空間SP1内の座標情報を3D_coordinate(i)と表記する。そして、i番目のCG物体の3次元空間SP1内の座標情報3D_coordinate(i)は、例えば、i番目のCG物体(略直方体)の6つの頂点の3次元空間SP1内の3次元座標のデータを含むデータである。 The 3D arrangement coordinate determination unit 21 acquires shape information (three-dimensional coordinate information) of a CG object (object generated by CG) to be arranged in the three-dimensional space SP1 specified by the data Info_3D_space. The 3D arrangement coordinate determination unit 21 acquires the coordinate information of the CG object to be arranged in the three-dimensional space SP1 by using the random number (step S13). Note that N CG objects are generated, and the coordinate information of the i-th CG object in the three-dimensional space SP1 is represented as 3D_coordinate(i). Then, the coordinate information 3D_coordinate(i) in the three-dimensional space SP1 of the i-th CG object is, for example, data of three-dimensional coordinates in the three-dimensional space SP1 of the six vertices of the i-th CG object (substantially rectangular parallelepiped). It is data including.
 また、姿勢決定部22は、CG物体の姿勢(CG物体の向き)を、乱数を使用して、決定する(ステップS13)。 Also, the posture determination unit 22 determines the posture of the CG object (the orientation of the CG object) using a random number (step S13).
 衝突検出部23は、上記のようにして3次元空間SP1内に配置されたN個のCG物体の中で、各CG物体が物理的に配置できない領域に配置されているものがないか検出する(ステップS14)。そして、検出の結果、物理的に配置できない領域に配置されているCG物体が存在していると判定された場合、物理的に配置できない領域に配置されているCG物体の配置を取り消し、処理をステップS13に戻す。一方、物理的に配置できない領域に配置されているCG物体が存在していないと判定された場合、3次元空間SP1内に配置したN個のCG物体は、すべて物理的に配置可能な領域に配置されているので、処理をステップS15に進める。 The collision detection unit 23 detects whether or not, among the N CG objects arranged in the three-dimensional space SP1 as described above, each CG object is arranged in a region where it cannot be physically arranged. (Step S14). Then, as a result of the detection, when it is determined that there is a CG object placed in the physically unplaceable area, the placement of the CG object placed in the physically unplaceable area is canceled, and the processing is executed. Return to step S13. On the other hand, when it is determined that there are no CG objects arranged in the area that cannot be physically arranged, all N CG objects arranged in the three-dimensional space SP1 are in the physically arrangeable area. Since they are arranged, the process proceeds to step S15.
 (ステップS15):
 ステップS15において、CG処理部2により生成されたCG物体(上記処理により、座標情報、姿勢等が決定されたCG物体)を、背景画像Img0に合成するためのレンダリング処理が実行される。
(Step S15):
In step S15, a rendering process for synthesizing the CG object generated by the CG processing unit 2 (the CG object whose coordinate information, orientation, etc. are determined by the above processing) with the background image Img0 is executed.
 具体的には、3D-2D変換部25は、データInfo_3D_spaceにより特定される3次元空間SP1内に配置させるCG物体を、背景画像Img0に合成する場合の当該背景画像Img0上の2次元座標を、当該CG物体の3次元空間SP1内の3次元座標を3D-2D変換(射影変換)することで取得する。 Specifically, the 3D-2D conversion unit 25 calculates the two-dimensional coordinates on the background image Img0 when the CG object to be arranged in the three-dimensional space SP1 specified by the data Info_3D_space is combined with the background image Img0. The 3D coordinates in the 3D space SP1 of the CG object are obtained by 3D-2D conversion (projection conversion).
 そして、レンダリング処理部3は、上記により取得した各CG物体の背景画像Img0上の2次元座標に基づいて、各CG物体を3次元空間SP1から背景画像Img0上の2次元空間に投影することで、各CG物体に相当する画像を、背景画像Img0に合成する。なお、このとき、視線奥(カメラCam1から遠い位置)から視線手前(カメラCam1に近い位置)へ向かって順に、各CG物体の背景画像Img0上へ投影して合成するレンダリング処理を行う。 Then, the rendering processing unit 3 projects each CG object from the three-dimensional space SP1 to the two-dimensional space on the background image Img0 based on the two-dimensional coordinates on the background image Img0 of each CG object acquired as described above. , Images corresponding to the respective CG objects are combined with the background image Img0. At this time, a rendering process is performed in which the CG objects are projected onto the background image Img0 in order from the back of the line of sight (a position far from the camera Cam1) to the front of the line of sight (a position near the camera Cam1) and combined.
 (ステップS16):
 ステップS16において、学習用データ生成部4は、ステップS15により取得されたレンダリング結果、すなわち、各CG物体を背景画像Img0へ投影して合成するレンダリング処理により取得された画像を学習用データ(学習用画像)として、学習用データ格納部DB2に保存する。
(Step S16):
In step S16, the learning data generation unit 4 outputs the rendering result acquired in step S15, that is, the image acquired by the rendering process in which each CG object is projected onto the background image Img0 and is combined (learning data). The image is stored in the learning data storage unit DB2.
 図5に、一例として、N個(N=9)のCG物体CG_obj1~CG_obj9を、背景画像Img0へ投影して合成するレンダリング処理により取得された画像Img1(レンダリング画像Img1)を示す。 FIG. 5 shows, as an example, an image Img1 (rendering image Img1) acquired by a rendering process in which N (N=9) CG objects CG_obj1 to CG_obj9 are projected onto the background image Img0 and combined.
 (ステップS17~S19):
 ステップS17において、CG処理部2の3D-2D変換部25は、投影変換により、各CG物体のそれぞれの頂点の3次元座標から、レンダリング画像Img1上の2次元座標を取得する。そして、3D-2D変換部25は、各CG物体をレンダリング画像Img1上において囲む領域を規定する2Dバウンディングボックスを決定する(ステップS18)。3D-2D変換部25は、決定した各CG物体の2Dバウンディングボックスを特定するための情報をデータData_coordinate(Bbox(i))として学習用データ生成部4に出力する。なお、「Bbox(i)」は、i番目のCG物体の2Dバウンディングボックスを示す表記であるものとする。
(Steps S17 to S19):
In step S17, the 3D-2D conversion unit 25 of the CG processing unit 2 obtains the two-dimensional coordinates on the rendering image Img1 from the three-dimensional coordinates of each vertex of each CG object by projection conversion. Then, the 3D-2D conversion unit 25 determines a 2D bounding box that defines a region surrounding each CG object on the rendered image Img1 (step S18). The 3D-2D conversion unit 25 outputs information for specifying the determined 2D bounding box of each CG object to the learning data generation unit 4 as data Data_coordinate(Bbox(i)). Note that “Bbox(i)” is a notation indicating the 2D bounding box of the i-th CG object.
 学習用データ生成部4は、ステップS18で取得したCG物体のバウンディングボックスの情報を含むデータData_coordinate(Bbox(i))(学習用位置ラベル)を学習用データ格納部DB2に出力し、学習用データ格納部DB2に保存する(ステップS19)。 The learning data generation unit 4 outputs data Data_coordinate(Bbox(i)) (learning position label) including the bounding box information of the CG object acquired in step S18 to the learning data storage unit DB2, and the learning data The data is stored in the storage DB2 (step S19).
 図6に、一例として、N個(N=9)のCG物体CG_obj1~CG_obj9を、背景画像Img0へ投影して合成するレンダリング処理により取得された画像Img1(レンダリング画像Img1)において、各CG物体のバウンディングボックスを矩形で明示した画像を示す。 In FIG. 6, as an example, N (N=9) CG objects CG_obj1 to CG_obj9 are projected on the background image Img0 and synthesized in the image Img1 (rendering image Img1) acquired by the rendering process. The image shows the bounding box as a rectangle.
 以上により、学習用データ生成システム1000では、CG処理部により生成したCG物体を背景画像Img0上にレンダリングして合成することで取得した学習用画像(レンダリング画像Img1)と、学習用画像(レンダリング画像Img1)上において、各CG物体の位置を特定する学習用位置ラベル(各CG物体の2Dバウンディングボックスの座標データ)とを取得することができる。学習用データ生成システム1000では、3次元空間SP1内での3次元位置が分かっているCG物体を、背景画像Img0にレンダリングして学習用画像Img1を取得し、当該学習用画像Img1において、各CG物体の位置を特定する学習用位置ラベル(各CG物体の2Dバウンディングボックスの座標データ)を特定するので、極めて正確な教師データを取得することができる。つまり、各CG物体は、学習用データ生成装置100のCG処理部2により生成したものであるので、各CG物体を背景画像Img0上に投影したとき、各CG物体が占める画像領域がどこになるのかを計算により正確に求めることができる。その結果、各CG物体の位置を特定する学習用位置ラベル(各CG物体の2Dバウンディングボックスの座標データ)は、極めて正確なものとなる。 As described above, in the learning data generation system 1000, the learning image (rendering image Img1) and the learning image (rendering image) obtained by rendering and compositing the CG object generated by the CG processing unit on the background image Img0. On Img1), a learning position label (coordinate data of the 2D bounding box of each CG object) that specifies the position of each CG object can be acquired. In the learning data generation system 1000, a CG object whose three-dimensional position in the three-dimensional space SP1 is known is rendered as a background image Img0 to acquire a learning image Img1, and each CG in the learning image Img1 is acquired. Since the learning position label (the coordinate data of the 2D bounding box of each CG object) that specifies the position of the object is specified, extremely accurate teacher data can be acquired. That is, since each CG object is generated by the CG processing unit 2 of the learning data generation device 100, when each CG object is projected onto the background image Img0, what is the image area occupied by each CG object? Can be calculated accurately. As a result, the learning position label (the coordinate data of the 2D bounding box of each CG object) that specifies the position of each CG object becomes extremely accurate.
 さらに、学習用データ生成システム1000では、CG処理部2により、人手を介することなく、自動でCG物体を生成することができる。そして、学習用データ生成システム1000では、生成したCG物体を背景画像に投影することで(レンダリング処理を行うことで)、短時間に多量の学習用画像Img1と、学習用位置ラベル(各CG物体の2Dバウンディングボックスの座標データ)とを生成することができる。 Furthermore, in the learning data generation system 1000, the CG processing unit 2 can automatically generate a CG object without human intervention. Then, in the learning data generation system 1000, by projecting the generated CG object on the background image (by performing the rendering process), a large number of learning images Img1 and learning position labels (each CG object). 2D bounding box coordinate data) and
 したがって、学習用データ生成システム1000では、物体検出処理等を実行するときに用いられる学習済みモデルを取得するために、学習処理時に必要となる学習用データを短時間に多量に取得することができる。 Therefore, the learning data generation system 1000 can acquire a large amount of learning data required for the learning process in a short time in order to acquire the learned model used when executing the object detection process and the like. ..
 そして、学習用データ生成システム1000により取得された、多量であり、かつ、極めて正確な教師データを用いて、学習処理を行うことで、例えば、物体検出処理を実行するときに用いられる学習済みモデルを高精度に、かつ、効率的に取得することでできる。 Then, the learning process is performed using a large amount of extremely accurate teacher data acquired by the learning data generation system 1000, and for example, a learned model used when executing the object detection process. Can be obtained with high accuracy and efficiency.
 ≪第1変形例≫
 次に、第1実施形態の第1変形例について、説明する。
<<First Modification>>
Next, a first modified example of the first embodiment will be described.
 なお、第1実施形態と同様の部分については、同一符号を付し、詳細な説明を省略する。 The same parts as those in the first embodiment are designated by the same reference numerals, and detailed description thereof will be omitted.
 本変形例の学習用データ生成システムでは、CG物体のテクスチャーを複数種類にする点が、第1実施形態とは相違する。 The learning data generation system of this modification is different from the first embodiment in that the texture of the CG object is set to a plurality of types.
 図7は、第1実施形態の第1変形例の学習用データ生成システムにより、N個(N=9)のCG物体CG_obj1~CG_obj9を、背景画像Img0へ投影して合成するレンダリング処理により取得された画像Img1A(レンダリング画像Img1A)を示す図である。 FIG. 7 is acquired by a rendering process of projecting N (N=9) CG objects CG_obj1 to CG_obj9 onto the background image Img0 by the learning data generation system of the first modified example of the first embodiment. It is a figure which shows the image Img1A (rendering image Img1A).
 図8は、N個(N=9)のCG物体CG_obj1~CG_obj9を、背景画像Img0へ投影して合成するレンダリング処理により取得された画像Img1A(レンダリング画像Img1A)において、各CG物体のバウンディングボックスを矩形で明示した画像を示す図である。 FIG. 8 shows the bounding box of each CG object in the image Img1A (rendering image Img1A) obtained by the rendering process of projecting and combining N (N=9) CG objects CG_obj1 to CG_obj9 onto the background image Img0. It is a figure which shows the image clarified by the rectangle.
 本変形例の学習用データ生成システムにおいて、テクスチャー設定部24は、各CG物体の表面に貼り付けるテクスチャーを設定する。 In the learning data generation system of this modification, the texture setting unit 24 sets the texture to be attached to the surface of each CG object.
 例えば、CG物体の種類を2種類とすると、テクスチャー設定部24は、各CG物体の表面に貼り付けるテクスチャーを、上記2種類(2パターン)のいずれかのパターンに設定する。例えば、テクスチャー設定部24は、図7に示すように、CG物体CG_obj1~CG_obj3、CG_obj5、CG_obj8を、第1パターンのテクスチャーとし、CG物体CG_obj4、CG_obj6~CG_obj7、CG_obj9を、第2パターンのテクスチャーに設定する。 For example, assuming that there are two types of CG objects, the texture setting unit 24 sets the texture to be attached to the surface of each CG object to one of the above two types (2 patterns). For example, as shown in FIG. 7, the texture setting unit 24 sets the CG objects CG_obj1 to CG_obj3, CG_obj5, and CG_obj8 as the first pattern textures, and sets the CG objects CG_obj4, CG_obj6 to CG_obj7 and CG_obj9 to the second pattern. Set.
 このように2種類のテクスチャーを設定した場合において、本変形例の学習用データ生成システムでは、第1実施形態と同様の処理を実行することで、図8に示すように、正確に、各CG物体のバウンディングボックスを特定する情報を取得することができる。したがって、例えば、物体検出処理の対象となる物体が多種類である場合において、本変形例の学習用データ生成システムにより、短時間で多量の学習用データ(教師データ)を生成することができる。 When two types of textures are set in this way, the learning data generation system of the present modification executes the same processing as that of the first embodiment, so that each CG is accurately represented as shown in FIG. Information specifying the bounding box of the object can be obtained. Therefore, for example, when there are many kinds of objects to be subjected to the object detection processing, a large amount of learning data (teaching data) can be generated in a short time by the learning data generation system of this modification.
 以上のように、本変形例の学習用データ生成システムでは、テクスチャーが多様に変化させることができ、多様なテクスチャーを有するCG物体を背景画像に投影することで(レンダリング処理を行うことで)、短時間に多量の学習用画像Img1Aと、学習用位置ラベル(各CG物体の2Dバウンディングボックスの座標データ)とを生成することができる。 As described above, in the learning data generation system of the present modification, the texture can be changed in various ways, and by projecting the CG object having various textures onto the background image (by performing the rendering process), It is possible to generate a large number of learning images Img1A and learning position labels (coordinate data of the 2D bounding box of each CG object) in a short time.
 なお、本変形例において、テクスチャーの種類を2種類としたが、これに限定されることはなく、テクスチャーの種類は3種類であってもよい。 Note that, in the present modification, there are two types of textures, but the present invention is not limited to this, and three types of textures may be used.
 [第2実施形態]
 次に、第2実施形態について、説明する。
[Second Embodiment]
Next, a second embodiment will be described.
 なお、上記実施形態(変形例を含む)と同様の部分については、同一符号を付し、詳細な説明を省略する。 Note that the same parts as those in the above-described embodiment (including modified examples) are designated by the same reference numerals, and detailed description thereof will be omitted.
 <2.1:学習用データ生成システム2000の構成>
 図9は、第2実施形態に係る学習用データ生成システム2000の概略構成図である。
<2.1: Configuration of Learning Data Generation System 2000>
FIG. 9 is a schematic configuration diagram of the learning data generation system 2000 according to the second embodiment.
 第2実施形態の学習用データ生成システム2000は、第1実施形態の学習用データ生成システム1000において、学習用データ生成装置100を学習用データ生成装置100Aに置換した構成を有している。そして、学習用データ生成装置100Aにおいて、CG処理部2をCG処理部2Aに置換し、学習用データ生成部4を学習用データ生成部4Aに置換した構成を有している。それ以外については、第2実施形態の学習用データ生成システム2000は、第1実施形態の学習用データ生成システム1000と同様である。 The learning data generation system 2000 of the second embodiment has a configuration in which the learning data generation device 100 is replaced with the learning data generation device 100A in the learning data generation system 1000 of the first embodiment. In the learning data generation device 100A, the CG processing unit 2 is replaced with the CG processing unit 2A, and the learning data generation unit 4 is replaced with the learning data generation unit 4A. Other than that, the learning data generation system 2000 of the second embodiment is the same as the learning data generation system 1000 of the first embodiment.
 CG処理部2Aは、姿勢決定部22により決定(設定)された各CG物体の姿勢(向き)で、CG物体を背景画像Img0上に投影したとき、CG物体がどのような姿勢であるか(どの方向を向いているか)を特定するための情報をデータLabel_postureとして、学習用データ生成部4Aに出力する。なお、i番目のCG物体の姿勢を特定するための情報をデータLabel_posture(i)と表記する。 The CG processing unit 2A has the posture (orientation) of each CG object determined (set) by the orientation determination unit 22, and when the CG object is projected onto the background image Img0, what kind of posture the CG object has ( The information for specifying which direction it is facing) is output to the learning data generation unit 4A as data Label_posture. Information for identifying the posture of the i-th CG object is referred to as data Label_posture(i).
 例えば、図10に示すように、CG物体が直方体である場合、3DのCG物体を2Dに投影変換した場合、目視できる面が3面となるので、目視できる面がどの面であるかにより、クラスを設定し、例えば、クラスの番号により、CG物体を背景画像Img0上に投影したときの姿勢(向き)を特定する。例えば、図10の場合、背景画像Img0(レンダリング画像Img1)上で目視できる面は、上面としてE面、左側面としてA面、右側面としてB面であるので、この状態を、例えば、図10に示すように「クラス1」とする。このようにして設定したクラスの番号により、CG物体を背景画像Img0上に投影したときの姿勢(向き)を特定することができる。 For example, as shown in FIG. 10, when the CG object is a rectangular parallelepiped, and when a 3D CG object is projected and converted into 2D, there are three visible surfaces, so depending on which surface is the visible surface, A class is set, and for example, the posture (orientation) when the CG object is projected on the background image Img0 is specified by the class number. For example, in the case of FIG. 10, the surfaces that can be visually recognized on the background image Img0 (rendering image Img1) are the E surface as the upper surface, the A surface as the left side surface, and the B surface as the right side surface. “Class 1” as shown in FIG. The posture (orientation) when the CG object is projected onto the background image Img0 can be specified by the class number thus set.
 学習用データ生成部4Aは、レンダリング処理部3から出力されるデータD2(レンダリング画像Img1(CG物体を背景画像Img0に合成した画像))と、CG処理部2Aから出力されるデータData_coordinate(Bbox(i))(バウンディングボックスを特定するためのデータ)およびデータLabel_posture(i)(レンダリング画像Img1での各CG物体の姿勢を特定するためのデータ)とを入力する。そして、学習用データ生成部4Aは、入力されたデータから学習用データを生成し、生成したデータをデータDoutとして、例えば、学習用データ格納部DB2に出力する。 The learning data generation unit 4A outputs the data D2 output from the rendering processing unit 3 (rendered image Img1 (image obtained by combining the CG object with the background image Img0)) and the data Data_coordinate(Bbox(Bbox( i)) (data for specifying the bounding box) and data Label_posture(i) (data for specifying the posture of each CG object in the rendering image Img1). Then, the learning data generation unit 4A generates learning data from the input data, and outputs the generated data as data Dout to, for example, the learning data storage unit DB2.
 <2.2:学習用データ生成システム2000の動作>
 以上のように構成された学習用データ生成システム2000の動作について、以下説明する。
<2.2: Operation of Learning Data Generation System 2000>
The operation of the learning data generation system 2000 configured as above will be described below.
 なお、以下では、学習用データ生成システム2000において、姿勢検出処理の学習用データを生成する場合について、説明する。また、説明便宜のため、姿勢検出処理における検出対象の物体が、略直方体の形状を有しているものとする。 The following describes a case where the learning data generation system 2000 generates learning data for posture detection processing. Further, for convenience of explanation, it is assumed that the object to be detected in the posture detection process has a substantially rectangular parallelepiped shape.
 図11は、姿勢検出処理の学習用データを生成する場合において、学習用データ生成システム2000が実行する処理のフローチャートである。 FIG. 11 is a flowchart of a process executed by the learning data generation system 2000 when generating learning data for the posture detection process.
 図12は、N個(N=10)のCG物体CG_obj1~CG_obj10を、背景画像Img0へ投影して合成するレンダリング処理により取得された画像Img2(レンダリング画像Img2)を示す図である。 FIG. 12 is a diagram showing an image Img2 (rendering image Img2) obtained by a rendering process in which N (N=10) CG objects CG_obj1 to CG_obj10 are projected onto the background image Img0 and synthesized.
 図13は、N個(N=10)のCG物体CG_obj1~CG_obj10を、背景画像Img0へ投影して合成するレンダリング処理により取得された画像Img2A(レンダリング画像Img2A)において、各CG物体のバウンディングボックス(クロップする画像領域に相当)を矩形で明示した画像を示す図である。 FIG. 13 illustrates a bounding box of each CG object in an image Img2A (rendering image Img2A) acquired by a rendering process of projecting and combining N (N=10) CG objects CG_obj1 to CG_obj10 onto a background image Img0. It is a figure which shows the image which clarified with the rectangle (corresponding to the image area|region to crop).
 図14は、N個(N=10)のCG物体CG_obj1~CG_obj9のクロップ画像Img_crop(1)~Img_crop(9)と、判定されたクラスの番号を示す図である。 FIG. 14 is a diagram showing cropped images Img_crop(1) to Img_crop(9) of N (N=10) CG objects CG_obj1 to CG_obj9 and the number of the determined class.
 (ステップS21~S25):
 ステップS21~S25の処理は、第1実施形態のステップS11~S15の処理と同様である。
(Steps S21 to S25):
The processing of steps S21 to S25 is the same as the processing of steps S11 to S15 of the first embodiment.
 (ステップS26):
 ステップS26において、CG処理部2の3D-2D変換部25は、投影変換により、各CG物体のそれぞれの頂点の3次元座標から、レンダリング画像Img2上の2次元座標を取得する。そして、3D-2D変換部25は、各CG物体をレンダリング画像Img2上において、視点(背景画像Img0のカメラ位置)から見たときに他のCG物体に遮蔽されているCG物体を検出し、完全または一部遮蔽されていると判定されたCG物体を学習データ取得対象から除外する。つまり、ステップS26の処理により、遮蔽されていないCG物体のみが学習データ取得対象に設定される。
(Step S26):
In step S26, the 3D-2D conversion unit 25 of the CG processing unit 2 obtains the two-dimensional coordinates on the rendering image Img2 from the three-dimensional coordinates of the vertices of each CG object by the projection conversion. Then, the 3D-2D conversion unit 25 detects a CG object shielded by another CG object when viewed from the viewpoint (the camera position of the background image Img0) on the rendered image Img2, and completes the CG object. Alternatively, the CG object determined to be partially shielded is excluded from the learning data acquisition targets. That is, by the process of step S26, only the unshielded CG object is set as the learning data acquisition target.
 (ステップS27):
 ステップS27において、学習用データ生成部4Aは、2Dバウンディングボックス(レンダリング画像上の各CG物体を囲む領域を決定するためのデータ)で規定される領域をクロップ領域に設定し、当該クロップ領域の画像を抽出する。i番目のCG物体のクロップ領域を抽出した画像をクロップ画像Img_crop(i)と表記する。
(Step S27):
In step S27, the learning data generation unit 4A sets the area defined by the 2D bounding box (data for determining the area surrounding each CG object on the rendering image) as the crop area, and the image of the crop area is set. To extract. An image obtained by extracting the crop region of the i-th CG object is referred to as a crop image Img_crop(i).
 そして、学習用データ生成部4Aにより取得されたクロップ画像Img_crop(i)は、学習用画像として、学習用データ格納部DB2に保存される。 The cropped image Img_crop(i) acquired by the learning data generation unit 4A is stored in the learning data storage unit DB2 as a learning image.
 (ステップS28):
 ステップS28において、学習用データ生成部4Aは、CG処理部2Aから出力されるデータLabel_posture(i)(i番目のCG物体のレンダリング画像上の姿勢を示すデータ)を取得し、当該データを学習用データ格納部DB2に保存する。なお、データLabel_posture(i)は、クロップ画像Img_crop(i)に含まれるCG物体の姿勢を示すデータである。
(Step S28):
In step S28, the learning data generation unit 4A acquires the data Label_posture(i) (data indicating the orientation of the i-th CG object on the rendering image) output from the CG processing unit 2A, and uses the data for learning. The data is stored in the data storage unit DB2. The data Label_posture(i) is data indicating the orientation of the CG object included in the cropped image Img_crop(i).
 本実施形態の学習用データ生成システム2000では、図14に示すように、CG物体CG_obj1~CG_obj9のクロップ画像Img_crop(1)~Img_crop(9)(CG物体CG_obj(10)は遮蔽されているので除外されている)を正確に取得することができ、かつ、姿勢ラベル(クロップ画像上のCG物体の姿勢を特定するデータ)も正確に取得することができる。 In the learning data generation system 2000 of the present embodiment, as shown in FIG. 14, the cropped images Img_crop(1) to Img_crop(9) of the CG objects CG_obj1 to CG_obj9 (the CG object CG_obj(10) are shielded and therefore excluded. It is also possible to accurately acquire the attitude label (data specifying the attitude of the CG object on the cropped image).
 以上により、学習用データ生成システム2000では、CG処理部により生成したCG物体を背景画像Img0上にレンダリングして合成することで取得したレンダリング画像Img2から、CG物体毎に取得したクロップ画像と、当該クロップ画像内のCG物体の姿勢を特定する姿勢ラベルとを取得することができる。 As described above, in the learning data generation system 2000, the cropped image acquired for each CG object from the rendering image Img2 acquired by rendering and compositing the CG object generated by the CG processing unit on the background image Img0, and It is possible to acquire a posture label that specifies the posture of the CG object in the cropped image.
 学習用データ生成システム2000では、3次元空間SP1内での3次元位置、姿勢が分かっているCG物体を、背景画像Img0にレンダリングしてレンダリング画像Img2を取得し、当該レンダリング画像Img2において、各CG物体の位置を特定する2Dバウンディングボックスで規定される領域をクロップ領域に特定するので、各CG物体を含むクロップ画像を極めて正確に取得することができる。
 さらに、クロップ画像に含まれるCG物体は、学習用データ生成装置100AのCG処理部2Aにより生成したものであるので、各CG物体を背景画像Img0上に投影したとき、各CG物体の姿勢がどのようになるのかを計算により正確に求めることができる。その結果、クロップ画像上において、各CG物体の姿勢を特定する学習用姿勢ラベル(各CG物体のクロップ画像上での姿勢を特定するデータ(例えば、クラスの番号))は、極めて正確なものとなる。
In the learning data generation system 2000, a CG object whose three-dimensional position and orientation in the three-dimensional space SP1 is known is rendered as a background image Img0 to obtain a rendered image Img2, and each CG is obtained in the rendered image Img2. Since the area defined by the 2D bounding box that specifies the position of the object is specified as the crop area, the crop image including each CG object can be acquired extremely accurately.
Furthermore, since the CG object included in the cropped image is generated by the CG processing unit 2A of the learning data generation device 100A, when each CG object is projected onto the background image Img0, the posture of each CG object is determined. It can be accurately calculated by calculation. As a result, the learning posture label that identifies the orientation of each CG object on the cropped image (data that identifies the orientation of each CG object on the cropped image (for example, the class number)) is extremely accurate. Become.
 さらに、学習用データ生成システム2000では、CG処理部2Aにより、人手を介することなく、自動でCG物体を生成することができる。そして、学習用データ生成システム2000では、生成したCG物体を背景画像に投影することで(レンダリング処理を行うことで)、短時間に多量の学習用画像(各CG物体のクロップ画像)と、学習用姿勢ラベル(各CG物体のクロップ画像上での姿勢を特定するデータ(例えば、クラスの番号))とを生成することができる。 Further, in the learning data generation system 2000, the CG processing unit 2A can automatically generate a CG object without human intervention. Then, in the learning data generation system 2000, a large amount of learning images (cropped images of each CG object) are learned in a short time by projecting the generated CG object on the background image (by performing rendering processing). Orientation label (data (for example, a class number) that identifies the orientation of each CG object on the cropped image) can be generated.
 したがって、学習用データ生成システム2000では、姿勢検出処理等を実行するときに用いられる学習済みモデルを取得するために、学習処理時に必要となる学習用データを短時間に多量に取得することができる。 Therefore, in the learning data generation system 2000, a large amount of learning data necessary for the learning process can be acquired in a short time in order to acquire the learned model used when executing the posture detection process and the like. ..
 そして、学習用データ生成システム2000により取得された、多量であり、かつ、極めて正確な教師データを用いて、学習処理を行うことで、例えば、姿勢検出処理を実行するときに用いられる学習済みモデルを高精度に、かつ、効率的に取得することでできる。 Then, by performing a learning process using a large amount of extremely accurate teacher data acquired by the learning data generation system 2000, for example, a learned model used when executing a posture detection process. Can be obtained with high accuracy and efficiency.
 なお、第1実施形態の第1変形例と同様に、本実施形態の学習用データ生成システム2000においても、CG物体のテクスチャーを複数種類(複数パターン)としてもよい。 Note that, similarly to the first modified example of the first embodiment, the learning data generation system 2000 of the present embodiment may have a plurality of types (a plurality of patterns) of textures of CG objects.
 [第3実施形態]
 次に、第3実施形態について説明する。
[Third Embodiment]
Next, a third embodiment will be described.
 図15は、第3実施形態に係る学習用データ生成システム3000の概略構成図である。 FIG. 15 is a schematic configuration diagram of a learning data generation system 3000 according to the third embodiment.
 図16は、検出対象物体(実物)Real_objが写っている背景画像Img0Aを示す図である。 FIG. 16 is a diagram showing a background image Img0A in which the detection target object (real object) Real_obj is shown.
 図17は、検出対象物体(実物)Real_objが写っている背景画像Img0Aに手動で設定された2DバウンディングボックスBbox_manualを示した図である。 FIG. 17 is a diagram showing the 2D bounding box Bbox_manual manually set in the background image Img0A in which the detection target object (real object) Real_obj is shown.
 図18は、検出対象物体(実物)Real_objが写っている背景画像Img0Aに、CG物体をレンダリングして取得されたレンダリング画像Img3を示す図である。 FIG. 18 is a diagram showing a rendering image Img3 obtained by rendering a CG object on a background image Img0A in which the detection target object (actual object) Real_obj is shown.
 なお、上記実施形態(変形例を含む)と同様の部分については、同一符号を付し、詳細な説明を省略する。 Note that the same parts as those in the above-described embodiment (including modified examples) are designated by the same reference numerals, and detailed description thereof will be omitted.
 第3実施形態の学習用データ生成システム3000では、第1実施形態の学習用データ生成システム1000の学習用データ生成装置100において、手動バウンディングボックス情報入力部5を追加した構成となっている。 The learning data generation system 3000 of the third embodiment has a configuration in which a manual bounding box information input unit 5 is added to the learning data generation device 100 of the learning data generation system 1000 of the first embodiment.
 学習用データ生成システム3000では、例えば、物体検出用の学習用データを生成するために、背景画像に写っている検出対象物体(実物)の画像領域を、従来と同様に手動で設定し、2Dバウンディングボックスを設定しているとき、当該手動で設定されている2Dバウンディングボックスの情報を、手動バウンディングボックス情報入力部5により取得する。 In the learning data generation system 3000, for example, in order to generate learning data for object detection, the image area of the detection target object (actual object) shown in the background image is manually set in the same manner as the conventional method, and 2D When the bounding box is set, the information of the manually set 2D bounding box is acquired by the manual bounding box information input unit 5.
 そして、学習用データ生成システム3000では、取得した情報をレンダリング処理部3に入力し、レンダリング処理部3は、当該手動で設定されている2Dバウンディングボックス内の画像領域以外の領域に、CGによるCG物体を配置するようにする。 Then, in the learning data generation system 3000, the acquired information is input to the rendering processing unit 3, and the rendering processing unit 3 applies the CG by CG to an area other than the image area in the manually set 2D bounding box. Try to position the object.
 このようにすることで、検出対象物体(実物)が写っている背景画像Img0Aを用いて、従来手法による学習データを取得するとともに、上記実施形態で説明したCGにより生成したCG物体を用いた学習用データ取得を行うことができる。 By doing so, learning data by the conventional method is acquired using the background image Img0A in which the detection target object (actual object) is captured, and learning is performed by using the CG object generated by the CG described in the above embodiment. Data can be acquired.
 学習用データ生成システム3000では、例えば、図16の背景画像Img0Aを用いて処理を行う場合、図17に示すように、手動で設定された2DバウンディングボックスBbox_manualの画像領域以外の領域を使用して、上記実施形態の処理を行う。 In the learning data generation system 3000, for example, when processing is performed using the background image Img0A of FIG. 16, as shown in FIG. 17, an area other than the image area of the manually set 2D bounding box Bbox_manual is used. The processing of the above embodiment is performed.
 このように処理することで、学習用データ生成システム3000では、例えば、図18に示すように、手動で設定された2DバウンディングボックスBbox_manualの画像領域以外の領域に、CG物体をレンダリングすることで、上記実施形態で説明した処理を実行することができる。 By processing in this way, in the learning data generation system 3000, for example, as shown in FIG. 18, by rendering a CG object in a region other than the image region of the manually set 2D bounding box Bbox_manual, The processing described in the above embodiment can be executed.
 なお、第2実施形態の学習用データ生成装置100Aにおいて、本実施形態と同様に、手動バウンディングボックス情報入力部5を追加し、本実施形態と同様に、手動で設定された2DバウンディングボックスBbox_manualの画像領域以外の領域に、CG物体をレンダリングすることで、学習用データを取得するようにしてもよい。 In addition, in the learning data generation device 100A of the second embodiment, a manual bounding box information input unit 5 is added as in the present embodiment, and similarly to the present embodiment, a manually set 2D bounding box Bbox_manual is displayed. The learning data may be acquired by rendering a CG object in an area other than the image area.
 [第4実施形態]
 次に、第4実施形態について説明する。
[Fourth Embodiment]
Next, a fourth embodiment will be described.
 なお、上記実施形態(変形例を含む)と同様の部分については、同一符号を付し、詳細な説明を省略する。 Note that the same parts as those in the above-described embodiment (including modified examples) are designated by the same reference numerals, and detailed description thereof will be omitted.
 <4.1:学習用データ生成システム4000の構成>
 図19は、第4実施形態に係る学習用データ生成システム4000の概略構成図である。
<4.1: Configuration of Learning Data Generation System 4000>
FIG. 19 is a schematic configuration diagram of a learning data generation system 4000 according to the fourth embodiment.
 第4実施形態の学習用データ生成システム4000は、第1実施形態の学習用データ生成システム1000において、学習用データ生成装置100を学習用データ生成装置100Cに置換した構成を有している。そして、学習用データ生成装置100Cにおいて、背景画像データ取得部1を背景画像データ取得部1Aに置換し、CG処理部2をCG処理部2Bに置換し、姿勢決定部22を鍵情報決定部22Aに置換し、レンダリング処理部3をレンダリング処理部3Aに置換し、学習用データ生成部4を学習用データ生成部4Bに置換した構成を有している。それ以外については、第4実施形態の学習用データ生成システム4000は、第1実施形態の学習用データ生成システム1000と同様である。 The learning data generation system 4000 of the fourth embodiment has a configuration in which the learning data generation device 100 is replaced with the learning data generation device 100C in the learning data generation system 1000 of the first embodiment. Then, in the learning data generation device 100C, the background image data acquisition unit 1 is replaced with the background image data acquisition unit 1A, the CG processing unit 2 is replaced with the CG processing unit 2B, and the attitude determination unit 22 is replaced with the key information determination unit 22A. , The rendering processing unit 3 is replaced with the rendering processing unit 3A, and the learning data generation unit 4 is replaced with the learning data generation unit 4B. Other than that, the learning data generation system 4000 of the fourth embodiment is the same as the learning data generation system 1000 of the first embodiment.
 なお、第4実施形態では、説明便宜のため、一例として、図20、図21に示すように、所定の空間に配置された直方体の物体を含む画像(例えば、図21の領域R1をクロップした画像)を背景画像(CG物体の被合成画像)として、当該直方体の物体の表面に鍵穴を形成する物体(CG物体)をCG合成する場合について、説明する。 Note that, in the fourth embodiment, for convenience of description, as an example, as shown in FIGS. 20 and 21, an image including a rectangular parallelepiped object arranged in a predetermined space (for example, the region R1 in FIG. 21 is cropped). A case will be described in which an object (CG object) forming a keyhole on the surface of the rectangular parallelepiped object is CG-composited using the image as a background image (composite image of the CG object).
 背景画像データ取得部1Aは、背景画像データ格納部DB1から、所定の背景画像データと、(1)当該背景画像を取得したときの撮像対象の3次元空間を特定するための情報(3次元空間の縦・横・高さの情報等)と、(2)当該背景画像を取得したときの撮影パラメータ(カメラの焦点距離、画角等)の情報と、(3)当該背景画像に含まれる抽出対象物(鍵穴を合成する被対象物)のサイズ、形状等の情報とを取得する。なお、背景画像データ取得部1Aは、背景画像を撮像したときの上記(1)~(3)の情報を含むデータを、データInfo1として、取得する。 The background image data acquisition unit 1A includes predetermined background image data from the background image data storage unit DB1 and (1) information for specifying a three-dimensional space of an imaging target when the background image is acquired (three-dimensional space). Vertical/horizontal/height information, etc.), (2) information on the shooting parameters (focal length of the camera, angle of view, etc.) when the background image was acquired, and (3) extraction included in the background image. Information such as the size and shape of the object (object to be combined with the keyhole) is acquired. The background image data acquisition unit 1A acquires, as the data Info1, data including the above information (1) to (3) when the background image was captured.
 背景画像データ取得部1Aは、例えば、画像認識処理により抽出対象物(鍵穴を合成する被対象物)の背景画像上の領域(例えば、図21の領域R1)を特定し、当該領域を切り出した画像を抽出画像D1Aとして取得する。また、背景画像データ取得部1Aは、切り出した画像領域が、撮像対象の3次元空間のどの空間に対応するかを特定するための情報を含むデータInfo2(D1A)を取得する。 The background image data acquisition unit 1A specifies, for example, an area (for example, the area R1 in FIG. 21) on the background image of the extraction object (object to be combined with the keyhole) by the image recognition processing, and cuts out the area. The image is acquired as the extracted image D1A. In addition, the background image data acquisition unit 1A acquires data Info2 (D1A) including information for specifying which space of the three-dimensional space of the imaging target the cut-out image region corresponds to.
 そして、背景画像データ取得部1Aは、取得したデータD1A(抽出対象物(鍵穴を合成する被対象物)の領域を抽出した画像)をレンダリング処理部3Aに出力するとともに、取得したデータInfo1およびデータInfo2(D1A)をCG処理部2Bおよびレンダリング処理部3Aに出力する。 Then, the background image data acquisition unit 1A outputs the acquired data D1A (the image in which the region of the extraction target (the object to be combined with the keyhole) is extracted) to the rendering processing unit 3A, and the acquired data Info1 and the data The Info2 (D1A) is output to the CG processing unit 2B and the rendering processing unit 3A.
 CG処理部2Bは、背景画像を撮像した3次元空間に配置するCG物体(CGにより生成される物体)を生成し、当該CG物体を背景画像(背景画像データ取得部1Aから取得される画像D1A)に合成するために必要なデータを生成する処理部である。 The CG processing unit 2B generates a CG object (object generated by CG) arranged in a three-dimensional space in which a background image is captured, and the CG object is a background image (image D1A acquired from the background image data acquisition unit 1A). ) Is a processing unit that generates the data necessary for the composition.
 鍵情報決定部22Aは、CG合成するための鍵の種別を特定し、また、CG合成する鍵の形状についての3次元空間の位置情報(鍵を3次元空間にCG合成により配置させたときの当該鍵の3次元位置(3次元形状)を特定するための情報)を特定する。なお、鍵の種別を特定する情報、および、鍵の3次元位置(3次元形状)を特定するための情報とは、所定の記憶部(不図示)に格納されているものとする。また、CG合成する鍵の形状についての3次元空間の位置情報は、撮影対象の3次元空間に設定される3次元座標による3次元座標(絶対座標によるデータ)であってもよいし、抽出対象物(鍵穴を合成する被対象物)を切り出した領域に相当する空間に設定される3次元座標による3次元座標(例えば、切り出した領域の所定の点(例えば、左端点)を原点とする相対座標によるデータ)であってもよい。 The key information determination unit 22A specifies the type of the key for CG synthesis, and also the position information of the shape of the key to be CG synthesized in the three-dimensional space (when the key is arranged in the three-dimensional space by CG synthesis). Information for specifying the three-dimensional position (three-dimensional shape) of the key is specified. The information for identifying the type of the key and the information for identifying the three-dimensional position (three-dimensional shape) of the key are stored in a predetermined storage unit (not shown). Further, the position information in the three-dimensional space regarding the shape of the key to be CG synthesized may be three-dimensional coordinates (data in absolute coordinates) based on the three-dimensional coordinates set in the three-dimensional space of the imaging target, or the extraction target. Relative to the origin with a three-dimensional coordinate (for example, a predetermined point (for example, the left end point) of the clipped region) set by the three-dimensional coordinate set in the space corresponding to the region where the object (object to be combined with the keyhole) is clipped Data by coordinates).
 CG処理部2Bは、CG物体(鍵形状のCG物体)を背景画像D1Aに合成するために必要なデータData_CG_objをレンダリング処理部3Aに出力する。なお、データData_CG_objは、3D-2D変換部25により、鍵情報決定部22Aにより特定された鍵穴形状の物体(CG物体)の3次元の位置データ(3次元座標データ)を、背景画像に合成する場合の当該背景画像上の2次元座標データに変換することで取得される。 The CG processing unit 2B outputs the data Data_CG_obj necessary for synthesizing the CG object (key-shaped CG object) to the background image D1A to the rendering processing unit 3A. The data Data_CG_obj is composed by the 3D-2D conversion unit 25 of three-dimensional position data (three-dimensional coordinate data) of the keyhole-shaped object (CG object) specified by the key information determination unit 22A on the background image. In this case, it is acquired by converting into the two-dimensional coordinate data on the background image.
 また、CG処理部2Bは、鍵穴形状の物体(CG物体)を背景画像に合成する場合の当該CG物体の当該背景画像上の2次元座標データ(3D-2D変換することで取得される2次元座標データ)を含む情報をデータKey_pos(i)として取得する。 Further, the CG processing unit 2B, when synthesizing a keyhole-shaped object (CG object) with a background image, two-dimensional coordinate data of the CG object on the background image (two-dimensional acquired by 3D-2D conversion). Information including coordinate data) is acquired as data Key_pos(i).
 また、CG処理部2Bは、鍵情報決定部22Aにより特定された鍵穴形状の物体(CG物体)(これをi番目(i:自然数)のCG物体とする)の鍵種別を示す情報をデータKey_type(i)として、鍵穴形状の物体(CG物体)の合成画像上の鍵位置を示す情報をデータKey_pos(i)として、学習用データ生成部4Bに出力する。 The CG processing unit 2B also provides information indicating the key type of the keyhole-shaped object (CG object) identified by the key information determination unit 22A (this is the i-th (i: natural number) CG object) as data Key_type. As (i), information indicating the key position on the composite image of the keyhole-shaped object (CG object) is output to the learning data generation unit 4B as data Key_pos(i).
 レンダリング処理部3Aは、背景画像データ取得部1Aから出力されるデータInfo1、データInfo2(D1A)、および、画像データD1A(鍵穴を合成する被対象物を抽出した画像)と、CG処理部2Bから出力されるデータData_CG_objとを入力する。 The rendering processing unit 3A outputs data Info1, data Info2 (D1A) output from the background image data acquisition unit 1A, and image data D1A (an image of an object in which a keyhole is combined) extracted from the CG processing unit 2B. Input the output data Data_CG_obj.
 レンダリング処理部3Aは、データInfo1と、データInfo2(D1A)と、データData_CG_objとに基づいて、CG処理部2Bにより生成されたCG物体(鍵穴形状のCG物体)を、画像D1Aに合成することで、合成画像データImg_render(i)を取得し、取得した合成画像データImg_render(i)を学習用データ生成部4Bに出力する。 The rendering processing unit 3A combines the CG object (keyhole-shaped CG object) generated by the CG processing unit 2B with the image D1A based on the data Info1, the data Info2 (D1A), and the data Data_CG_obj. , And acquires the composite image data Img_render(i), and outputs the acquired composite image data Img_render(i) to the learning data generation unit 4B.
 学習用データ生成部4Bは、レンダリング処理部3Aから出力される合成画像データImg_render(i)と、CG処理部2Bから出力されるCG物体(鍵穴形状のCG物体)の鍵種別を示す情報をデータKey_type(i)と、鍵穴形状の物体(CG物体)の合成画像上の鍵位置を示す情報をデータKey_pos(i)とを入力する。 The learning data generation unit 4B stores information indicating the key type of the composite image data Img_render(i) output from the rendering processing unit 3A and the CG object (keyhole-shaped CG object) output from the CG processing unit 2B. The Key_type(i) and the data Key_pos(i) are input as information indicating the key position on the composite image of the keyhole-shaped object (CG object).
 学習用データ生成部4Bは、入力されたデータから学習用データを生成し、生成したデータをデータDoutとして、例えば、学習用データ格納部DB2に出力する。なお、データDoutは、i番目のCG物体のデータとして、
(1)Img_render(i)(鍵穴を合成した画像)
(2)Label_key(i)(鍵種別の情報と鍵位置の情報とを含むラベル)
を含むデータであるものとする。
The learning data generation unit 4B generates learning data from the input data, and outputs the generated data as data Dout to, for example, the learning data storage unit DB2. The data Dout is the data of the i-th CG object,
(1) Img_render(i) (image combining keyholes)
(2) Label_key(i) (label including key type information and key position information)
It is assumed that the data includes.
 学習用データ格納部DB2は、学習用データ生成部4Bから出力されるデータDoutを入力し、当該データを記憶保持する。 The learning data storage unit DB2 inputs the data Dout output from the learning data generation unit 4B, and stores and holds the data.
 <4.2:学習用データ生成システム4000の動作>
 以上のように構成された学習用データ生成システム4000の動作について、以下、説明する。
<4.2: Operation of Learning Data Generation System 4000>
The operation of the learning data generation system 4000 configured as above will be described below.
 なお、以下では、学習用データ生成システム4000において、鍵穴検出処理の学習用データを生成する場合について、説明する。また、説明便宜のため、鍵穴検出処理における検出対象の物体が、略直方体の形状を有しているものとする。 In the following, a case will be described in which learning data generation system 4000 generates learning data for keyhole detection processing. Further, for convenience of explanation, it is assumed that the object to be detected in the keyhole detection process has a substantially rectangular parallelepiped shape.
 図22は、鍵検出処理の学習用データを生成する場合において、学習用データ生成システム4000が実行する処理のフローチャートである。 FIG. 22 is a flowchart of the processing executed by the learning data generation system 4000 when the learning data for the key detection processing is generated.
 以下では、図22のフローチャートを参照しながら、学習用データ生成システム4000の動作について、説明する。 The operation of the learning data generation system 4000 will be described below with reference to the flowchart of FIG.
 (ステップS31):
 ステップS31において、背景画像データ取得部1Aは、背景画像データ格納部DB1から1つの背景画像データを取得する。なお、説明便宜のため、背景画像データ取得部1Aは、背景画像データ格納部DB1から、図20に示す背景画像Img4を取得するものとし、以下、この場合について、説明する。
(Step S31):
In step S31, the background image data acquisition unit 1A acquires one background image data from the background image data storage unit DB1. For convenience of explanation, the background image data acquisition unit 1A acquires the background image Img4 shown in FIG. 20 from the background image data storage unit DB1, and this case will be described below.
 背景画像データ取得部1Aは、例えば、画像認識処理により抽出対象物(鍵穴を合成する被対象物)の背景画像上の領域(例えば、図21の領域R1)を特定し、当該領域を切り出した画像を抽出画像D1Aとして取得する。また、背景画像データ取得部1Aは、切り出した画像領域が、撮像対象の3次元空間のどの空間に対応するかを特定するための情報を含むデータInfo2(D1A)を取得する。 The background image data acquisition unit 1A specifies, for example, an area (for example, the area R1 in FIG. 21) on the background image of the extraction object (object to be combined with the keyhole) by the image recognition processing, and cuts out the area. The image is acquired as the extracted image D1A. In addition, the background image data acquisition unit 1A acquires data Info2 (D1A) including information for specifying which space of the three-dimensional space of the imaging target the cut-out image region corresponds to.
 そして、背景画像データ取得部1Aは、取得したデータD1A(抽出対象物(鍵穴を合成する被対象物)の領域を抽出した画像)をレンダリング処理部3Aに出力するとともに、取得したデータInfo1およびデータInfo2(D1A)をCG処理部2Bおよびレンダリング処理部3Aに出力する。 Then, the background image data acquisition unit 1A outputs the acquired data D1A (the image in which the region of the extraction target (the object to be combined with the keyhole) is extracted) to the rendering processing unit 3A, and the acquired data Info1 and the data The Info2 (D1A) is output to the CG processing unit 2B and the rendering processing unit 3A.
 (ステップS32、S33):
 CG処理部2Bは、鍵情報決定部22Aにより、CG合成するための鍵の種別Key_type(i)を特定し(ステップS32)、また、CG合成する鍵の形状についての3次元空間の位置情報を3D-2D変換して、背景画像上の2次元座標データを取得し、取得した当該2次元データを含むデータKey_pos(i)を特定する(ステップS33)。なお、ステップS33において、鍵の位置情報Key_pos(i)は、背景画像(合成画像)上において、鍵を合成するCG物体の面の左右のいずれの領域に配置されるかを特定できる情報を含むものであってもよい。
(Steps S32, S33):
The CG processing unit 2B identifies the key type Key_type(i) for CG combination by the key information determination unit 22A (step S32), and also obtains the position information of the three-dimensional space regarding the shape of the key to be CG combined. The 3D-2D conversion is performed to acquire the two-dimensional coordinate data on the background image, and the data Key_pos(i) including the acquired two-dimensional data is specified (step S33). In step S33, the key position information Key_pos(i) includes information that can specify on the background image (composite image) which of the left and right areas of the surface of the CG object to combine the key with is arranged. It may be one.
 CG処理部2Bは、CG物体(鍵形状のCG物体)を背景画像D1Aに合成するために必要なデータData_CG_objをレンダリング処理部3Aに出力する。 The CG processing unit 2B outputs the data Data_CG_obj necessary for synthesizing the CG object (key-shaped CG object) to the background image D1A to the rendering processing unit 3A.
 また、CG処理部2Bは、鍵情報決定部22Aにより特定された鍵穴形状の物体(CG物体)(これをi番目(i:自然数)のCG物体とする)の鍵種別を示す情報をデータKey_type(i)として、鍵穴形状の物体(CG物体)の合成画像上の鍵位置を示す情報をデータKey_pos(i)として、学習用データ生成部4Bに出力する。 The CG processing unit 2B also provides information indicating the key type of the keyhole-shaped object (CG object) identified by the key information determination unit 22A (this is the i-th (i: natural number) CG object) as data Key_type. As (i), information indicating the key position on the composite image of the keyhole-shaped object (CG object) is output to the learning data generation unit 4B as data Key_pos(i).
 (ステップS34):
 ステップS34において、レンダリング処理部3Aは、背景画像データ取得部1Aから出力されるデータInfo1、データInfo2(D1A)、および、画像データD1A(鍵穴を合成する被対象物を抽出した画像)と、CG処理部2Bから出力されるデータData_CG_objとに基づいて、CG処理部2Bにより生成されたCG物体(鍵穴形状のCG物体)を、画像D1Aに合成することで、合成画像データImg_render(i)(レンダリング結果の画像)を取得する。
(Step S34):
In step S34, the rendering processing unit 3A determines the data Info1, the data Info2 (D1A) output from the background image data acquisition unit 1A, the image data D1A (the image in which the target object in which the keyhole is combined is extracted), and By combining the image D1A with the CG object (keyhole-shaped CG object) generated by the CG processing unit 2B based on the data Data_CG_obj output from the processing unit 2B, the combined image data Img_render(i) (rendering) Get the resulting image).
 図23、図24に、一例として、画像データD1A(鍵穴を合成する被対象物を抽出した画像)(図23、図24では、Img_real(box1)と表記)に、4種類の鍵穴の形状のCG物体key1~key4を合成するときの様子を模式的に示す。なお、図23、図24では、鍵穴の形状のCG物体keyxのデータData_CG_objをData_CG_obj(keyx)と表記している。 In FIGS. 23 and 24, as an example, image data D1A (an image obtained by extracting an object to be combined with a keyhole) (in FIG. 23 and FIG. 24, written as Img_real(box1)) has four types of keyhole shapes. A state in which the CG objects key1 to key4 are combined is schematically shown. Note that, in FIGS. 23 and 24, the data Data_CG_obj of the CG object keyx in the shape of the keyhole is expressed as Data_CG_obj(keyx).
 図23に示すように、レンダリング処理部3Aは、例えば、以下の学習用データを生成する。
(1)i=1の場合(鍵key1を被合成物体の正面の左側領域に合成する場合)
  鍵種類:key1
  合成画像データ:Img_render(1)
  学習ラベル用ラベル:Label_key(1)=(key1,pos_L)
  pos_L:鍵穴形状CG物体の位置情報
(2)i=2の場合(鍵key1を被合成物体の正面の右側領域に合成する場合)
  鍵種類:key1
  合成画像データ:Img_render(2)
  学習ラベル用ラベル:Label_key(2)=(key1,pos_R)
  pos_R:鍵穴形状CG物体の位置情報
(3)i=3の場合(鍵key2を被合成物体の正面の左側領域に合成する場合)
  鍵種類:key2
  合成画像データ:Img_render(3)
  学習ラベル用ラベル:Label_key(3)=(key2,pos_L)
  pos_L:鍵穴形状CG物体の位置情報
(4)i=4の場合(鍵key2を被合成物体の正面の右側領域に合成する場合)
  鍵種類:key2
  合成画像データ:Img_render(4)
  学習ラベル用ラベル:Label_key(4)=(key2,pos_R)
  pos_R:鍵穴形状CG物体の位置情報
 また、図24に示すように、レンダリング処理部3Aは、例えば、以下の学習用データを生成する。
(5)i=5の場合(鍵key3を被合成物体の正面の左側領域に合成する場合)
  鍵種類:key3
  合成画像データ:Img_render(5)
  学習ラベル用ラベル:Label_key(5)=(key3,pos_L)
  pos_L:鍵穴形状CG物体の位置情報
(6)i=6の場合(鍵key2を被合成物体の正面の右側領域に合成する場合)
  鍵種類:key3
  合成画像データ:Img_render(6)
  学習ラベル用ラベル:Label_key(6)=(key3,pos_R)
  pos_R:鍵穴形状CG物体の位置情報
(7)i=7の場合(鍵key4を被合成物体の正面の左側領域に合成する場合)
  鍵種類:key4
  合成画像データ:Img_render(7)
  学習ラベル用ラベル:Label_key(7)=(key4,pos_L)
  pos_L:鍵穴形状CG物体の位置情報
(8)i=8の場合(鍵key4を被合成物体の正面の右側領域に合成する場合)
  鍵種類:key4
  合成画像データ:Img_render(8)
  学習ラベル用ラベル:Label_key(8)=(key4,pos_R)
  pos_R:鍵穴形状CG物体の位置情報
 そして、レンダリング処理部3Aは、取得した合成画像データImg_render(i)を学習用データ生成部4Bに出力する。
As shown in FIG. 23, the rendering processing unit 3A generates, for example, the following learning data.
(1) When i=1 (when the key key1 is combined with the left area in front of the object to be combined)
Key type: key1
Composite image data: Img_render(1)
Label for learning label: Label_key(1)=(key1, pos_L)
pos_L: Position information (2) i=2 of the keyhole-shaped CG object (when the key key1 is combined with the right area in front of the combined object)
Key type: key1
Composite image data: Img_render(2)
Label for learning label: Label_key(2)=(key1, pos_R)
pos_R: Position information (3) i of the keyhole-shaped CG object (when i=3 (when the key key2 is combined with the left area in front of the combined object))
Key type: key2
Composite image data: Img_render(3)
Label for learning label: Label_key(3)=(key2, pos_L)
pos_L: In the case of position information (4) i=4 of the keyhole-shaped CG object (when the key key2 is combined with the right area in front of the combined object)
Key type: key2
Composite image data: Img_render(4)
Label for learning label: Label_key(4)=(key2, pos_R)
pos_R: Position information of keyhole-shaped CG object Further, as shown in FIG. 24, the rendering processing unit 3A generates, for example, the following learning data.
(5) When i=5 (when key key3 is combined with the front left side area of the object to be combined)
Key type: key3
Composite image data: Img_render(5)
Label for learning label: Label_key(5)=(key3, pos_L)
pos_L: In the case of position information (6) i=6 of the keyhole-shaped CG object (when the key key2 is combined with the right area in front of the combined object)
Key type: key3
Composite image data: Img_render(6)
Label for learning label: Label_key(6)=(key3, pos_R)
pos_R: Position information (7) i=7 of the keyhole-shaped CG object (when key key4 is combined with the left area in front of the object to be combined)
Key type: key4
Composite image data: Img_render(7)
Label for learning label: Label_key(7)=(key4, pos_L)
pos_L: In the case of position information (8) i=8 of the keyhole-shaped CG object (when the key key4 is combined with the right area in front of the combined object)
Key type: key4
Composite image data: Img_render(8)
Label for learning label: Label_key(8)=(key4, pos_R)
pos_R: Position information of keyhole shape CG object Then, the rendering processing unit 3A outputs the acquired combined image data Img_render(i) to the learning data generation unit 4B.
 (ステップS35、S36):
 学習用データ生成部4Bは、レンダリング処理部3Aから出力される合成画像データImg_render(i)を学習用画像として、学習用データ格納部DB2に保存する(ステップS35)。
(Steps S35, S36):
The learning data generation unit 4B stores the combined image data Img_render(i) output from the rendering processing unit 3A as a learning image in the learning data storage unit DB2 (step S35).
 また、学習用データ生成部4Bは、CG処理部2Bから出力されるCG物体(鍵穴形状のCG物体)の鍵種別を示す情報をデータKey_type(i)と、鍵穴形状の物体(CG物体)の合成画像上の鍵位置を示す情報をデータKey_pos(i)とを含む学習用ラベルLabel_key(i)(鍵種別の情報と鍵位置の情報とを含むラベル)を生成し、生成した学習用ラベルLabel_key(i)を学習用データ格納部DB2に保存する(ステップS36)。 Further, the learning data generation unit 4B outputs information indicating the key type of the CG object (key hole-shaped CG object) output from the CG processing unit 2B, from the data Key_type(i) and the key hole-shaped object (CG object). The learning label Label_key(i) (the label including the key type information and the key position information) including the information indicating the key position on the combined image and the data Key_pos(i) is generated, and the generated learning label Label_key. (I) is saved in the learning data storage unit DB2 (step S36).
 以上により、学習用データ生成システム4000では、CG処理部2Bにより生成したCG物体を背景画像D1A上にレンダリングして合成することで取得した学習用画像(レンダリング画像Img_render(i))と、学習用ラベルLabel_key(i)(鍵種別の情報Key_type(i)と鍵位置の情報Key_pos(i)とを含むラベル)とを取得することができる。 As described above, in the learning data generation system 4000, the learning image (rendering image Img_render(i)) acquired by rendering and synthesizing the CG object generated by the CG processing unit 2B on the background image D1A and the learning image It is possible to acquire the label Label_key(i) (a label including the key type information Key_type(i) and the key position information Key_pos(i)).
 学習用データ生成システム4000では、3次元空間SP1内での3次元位置が分かっているCG物体(鍵穴形状のCG物体)を、背景画像(被合成画像(例えば、図21の領域R1の抽出画像))にレンダリングして学習用画像Img_render(i)(鍵穴合成画像データ)を取得し、さらに、当該学習用画像Img_render(i)において、各CG物体(鍵穴形状のCG物体)の位置を特定する学習用ラベルLabel_key(i)(鍵種別の情報Key_type(i)と鍵位置の情報Key_pos(i)とを含むラベル)を取得する。したがって、学習用データ生成システム4000では、極めて正確な教師データを取得することができる。つまり、各CG物体は、学習用データ生成装置100CのCG処理部2Bにより生成したものであるので、鍵の種類を正確に把握することができるともに、各CG物体を背景画像D1A上に投影したとき、各CG物体(鍵穴形状のCG物体)が占める画像領域がどこになるのかを計算により正確に求めることができる。 In the learning data generation system 4000, a CG object (a keyhole-shaped CG object) whose three-dimensional position in the three-dimensional space SP1 is known is converted into a background image (synthesized image (for example, an extracted image of the region R1 in FIG. 21). )) to acquire the learning image Img_render(i) (keyhole composite image data), and further specify the position of each CG object (keyhole-shaped CG object) in the learning image Img_render(i). A learning label Label_key(i) (a label including key type information Key_type(i) and key position information Key_pos(i)) is acquired. Therefore, the learning data generation system 4000 can acquire extremely accurate teacher data. That is, since each CG object is generated by the CG processing unit 2B of the learning data generation device 100C, the type of key can be accurately grasped, and each CG object is projected on the background image D1A. At this time, the position of the image area occupied by each CG object (keyhole-shaped CG object) can be calculated accurately.
 さらに、学習用データ生成システム4000では、CG処理部2Bにより、人手を介することなく、自動でCG物体を生成することができる。そして、学習用データ生成システム4000では、生成したCG物体を背景画像に投影することで(レンダリング処理を行うことで)、短時間に多量の学習用画像と、学習用ラベルとを生成することができる。 Further, in the learning data generation system 4000, the CG processing unit 2B can automatically generate a CG object without human intervention. Then, the learning data generation system 4000 can generate a large number of learning images and learning labels in a short time by projecting the generated CG object on the background image (by performing rendering processing). it can.
 したがって、学習用データ生成システム4000では、鍵穴検出処理等を実行するときに用いられる学習済みモデルを取得するために、学習処理時に必要となる学習用データを短時間に多量に取得することができる。 Therefore, in the learning data generation system 4000, a large amount of learning data necessary for the learning process can be acquired in a short time in order to acquire the learned model used when executing the keyhole detection process and the like. ..
 [第5実施形態]
 次に、第5実施形態について説明する。
[Fifth Embodiment]
Next, a fifth embodiment will be described.
 なお、上記実施形態(変形例を含む)と同様の部分については、同一符号を付し、詳細な説明を省略する。 Note that the same parts as those in the above-described embodiment (including modified examples) are designated by the same reference numerals, and detailed description thereof will be omitted.
 <5.1:学習推論処理システムSys1の構成>
 図25は、第5実施形態に係る学習推論処理システムSys1の概略構成図である。
<5.1: Configuration of Learning Inference Processing System Sys1>
FIG. 25 is a schematic configuration diagram of the learning inference processing system Sys1 according to the fifth embodiment.
 図26は、第5実施形態に係る学習処理装置200の概略構成図である。 FIG. 26 is a schematic configuration diagram of the learning processing device 200 according to the fifth embodiment.
 図27は、第5実施形態に係る推論処理装置300の概略構成図である。 FIG. 27 is a schematic configuration diagram of the inference processing device 300 according to the fifth embodiment.
 学習推論処理システムSys1は、図25に示すように、学習用データ格納部DB2と、学習処理装置200と、最適化パラメータ格納部DB3と、カメラC1と、推論処理装置300とを備える。 As shown in FIG. 25, the learning inference processing system Sys1 includes a learning data storage unit DB2, a learning processing device 200, an optimization parameter storage unit DB3, a camera C1, and an inference processing device 300.
 学習用データ格納部DB2には、第4実施形態の学習用データ生成システム4000により生成された学習用データが格納されているものとする。 It is assumed that the learning data storage unit DB2 stores the learning data generated by the learning data generation system 4000 of the fourth embodiment.
 学習推論処理システムSys1では、学習処理において、学習用画像(レンダリング画像Img_render(i))と、学習用ラベルLabel_key(i)(鍵種別の情報Key_type(i)と鍵位置の情報Key_pos(i)とを含むラベル)とを含む学習データにより学習処理を実行し、画像が入力されたときに、当該画像に含まれている物体の表面上の鍵の種類と鍵の位置とを特定するデータを出力する学習済みモデルを取得する。 In the learning inference processing system Sys1, the learning image (rendering image Img_render(i)), the learning label Label_key(i) (key type information Key_type(i), and key position information Key_pos(i)) are used in the learning process. Learning data including a label) and output learning data when the image is input, the data specifying the key type and the key position on the surface of the object included in the image is output. Get the trained model.
 また、学習推論処理システムSys1では、推論処理において、撮影対象の空間を撮像して取得した画像に含まれている物体の表面の鍵の3次元位置を推定する。 Further, in the learning inference processing system Sys1, in the inference processing, the three-dimensional position of the key on the surface of the object included in the image acquired by capturing the image of the space to be captured is estimated.
 以下では、学習処理装置200と、推論処理装置300とに分けて、説明する。 In the following, the learning processing device 200 and the inference processing device 300 will be described separately.
 <5.2:学習処理装置200>
 図26に示すように、学習処理装置200は、学習用データ入力部201と、学習用モデル202と、パラメータ更新部203と、判定部204とを備える。
<5.2: Learning processing device 200>
As shown in FIG. 26, the learning processing device 200 includes a learning data input unit 201, a learning model 202, a parameter updating unit 203, and a determining unit 204.
 学習用データ入力部201は、学習用データ格納部DB2から学習用データDL_inを取得する。そして、学習用データ入力部201は、学習用データDL_inに含まれる画像データImg_render(i)(鍵穴合成画像)を取り出し、学習用モデル202に出力する。また、学習用データ入力部201は、学習用データDL_inに含まれる学習用ラベルLabel_key(i)(鍵種別の情報Key_type(i)と鍵位置の情報Key_pos(i)とを含むラベル)を取り出し、教師データDL_answerとして、判定部204に出力する。 The learning data input unit 201 acquires the learning data DL_in from the learning data storage unit DB2. Then, the learning data input unit 201 takes out the image data Img_render(i) (keyhole composite image) included in the learning data DL_in and outputs it to the learning model 202. Further, the learning data input unit 201 takes out the learning label Label_key(i) (the label including the key type information Key_type(i) and the key position information Key_pos(i)) included in the learning data DL_in, It is output to the determination unit 204 as teacher data DL_answer.
 学習用モデル202は、例えば、入力層と、複数の中間層と、出力層とを備えるニューラルネットワークによるモデルである。学習用モデル202の各層間の重み付け係数(各層間を繋ぐシナプス結合の重み付け)は、パラメータ更新部203から出力されるパラメータθにより設定(調整)される。学習用モデル202は、出力層から出力されるデータをデータDL_outとして、判定部204に出力する。なお、データDL_outは、学習用ラベルLabel_key(i)(鍵種別の情報Key_type(i)と鍵位置の情報Key_pos(i)とを含むラベル)と同一次元のデータである。 The learning model 202 is, for example, a model based on a neural network including an input layer, a plurality of intermediate layers, and an output layer. The weighting coefficient between the layers of the learning model 202 (weighting of synapse connection connecting the layers) is set (adjusted) by the parameter θ output from the parameter updating unit 203. The learning model 202 outputs the data output from the output layer as the data DL_out to the determination unit 204. The data DL_out has the same dimension as the learning label Label_key(i) (label including the key type information Key_type(i) and the key position information Key_pos(i)).
 パラメータ更新部203は、判定部204から出力される制御信号adj_prmを入力し、当該制御信号adj_prmに基づいて、学習用モデル202のパラメータθを更新する(各シナプス結合の重み付け係数を更新する)。 The parameter updating unit 203 inputs the control signal adj_prm output from the determining unit 204, and updates the parameter θ of the learning model 202 based on the control signal adj_prm (updates the weighting coefficient of each synapse connection).
 判定部204は、学習用データ入力部201から出力される教師データDL_answerと、学習用モデル202から出力されるデータDL_outとを入力する。判定部204は、データDL_outと、教師データDL_answerとを比較し、両者(例えば、両者のノルム)の差が小さくなるように、パラメータを更新させるための制御信号adj_prmを生成し、生成した制御信号adj_prmをパラメータ更新部203に出力する。 The determination unit 204 inputs the teacher data DL_answer output from the learning data input unit 201 and the data DL_out output from the learning model 202. The determination unit 204 compares the data DL_out with the teacher data DL_answer, generates the control signal adj_prm for updating the parameters so that the difference between them (for example, the norm of both) becomes small, and the generated control signal. The adj_prm is output to the parameter updating unit 203.
 また、判定部204は、学習用モデル202への入力データDL_imgの集合をxとし、学習用モデル202からの出力データDL_outの集合をyとし、入力データxが学習用モデル202に入力されたときに出力データyが出力される条件付き確率をP(y|x)とすると、
Figure JPOXMLDOC01-appb-M000001
を満たす最適パラメータθ_optを、上記のパラメータを更新(調整)する処理を繰り返して取得する。なお、条件付きP(y|x)は、出力データが教師データに近い程、大きな値をとるものとする。
In addition, the determination unit 204 sets the set of input data DL_img to the learning model 202 as x, the set of output data DL_out from the learning model 202 as y, and when the input data x is input to the learning model 202. Let P(y|x) be the conditional probability that the output data y will be output to
Figure JPOXMLDOC01-appb-M000001
The optimum parameter θ_opt that satisfies the above is acquired by repeating the process of updating (adjusting) the above parameters. The conditional P(y|x) takes a larger value as the output data is closer to the teacher data.
 例えば、条件付きP(y|x)は、以下のように設定される。
Figure JPOXMLDOC01-appb-M000002
 
  σ:標準偏差
 なお、xは、集合xに含まれるベクトルであり、yは、集合yに含まれるベクトルであり、yi_correctは、xを入力としたときの教師データ(正解データ)(ベクトルデータ)である。H(x;θ)は、入力xに対して、例えば、複数層からなるニューラルネットワークの処理を施し、出力を取得する処理に相当する演算子を表している。パラメータθは、例えば、当該ニューラルネットワークのシナプス結合の重み付け等を決定するパラメータである。なお、H(x;θ)には、非線形の演算が含まれてもよい。
For example, conditional P(y|x) is set as follows.
Figure JPOXMLDOC01-appb-M000002

σ: standard deviation Note that x i is a vector included in the set x, y i is a vector included in the set y, and y i_correct is teacher data (correct data) when x i is an input. (Vector data). H(x i ; θ) represents an operator corresponding to a process of applying a process of a neural network including a plurality of layers to the input x i and acquiring an output. The parameter θ is, for example, a parameter that determines the weighting of the synaptic connection of the neural network. Note that H(x i ; θ) may include a non-linear operation.
 判定部204は、取得した最適パラメータθ_optを最適化パラメータ格納部DB3に格納する。なお、パラメータθ、最適パラメータθ_optは、ベクトル、または、テンソルである。 The determination unit 204 stores the acquired optimum parameter θ_opt in the optimum parameter storage unit DB3. The parameter θ and the optimum parameter θ_opt are vectors or tensors.
 以上にようにして、学習処理装置200では、学習済みモデルに設定するパラメータである最適パラメータθ_optを取得する。 As described above, the learning processing device 200 acquires the optimum parameter θ_opt which is a parameter set in the learned model.
 <5.3.1:推論処理装置300の構成>
 次に、推論処理装置300の構成について説明する。
<5.3.1: Configuration of the inference processing device 300>
Next, the configuration of the inference processing device 300 will be described.
 図27に示すように、推論処理装置300は、入力インターフェース31と、画像認識抽出部32と、予測部33と、2D座標検出部34と、検出精度判定部35と、撮影パラメータ調整部36と、鍵パラメータ取得部37と、3D座標推定部38とを備える。また、推論処理装置300は、カメラC1で撮像した画像を入力インターフェースに入力することができる。また、図27に示すように、推論処理装置300において、予測部33は、最適化パラメータ格納部DB3と接続されており、2D座標検出部34は、鍵穴パターン格納部DB4と接続されており、鍵パラメータ取得部37は、鍵パラメータ格納部DB5と接続されている。 As shown in FIG. 27, the inference processing device 300 includes an input interface 31, an image recognition extraction unit 32, a prediction unit 33, a 2D coordinate detection unit 34, a detection accuracy determination unit 35, and a shooting parameter adjustment unit 36. A key parameter acquisition unit 37 and a 3D coordinate estimation unit 38 are provided. Further, the inference processing device 300 can input the image captured by the camera C1 to the input interface. Further, as shown in FIG. 27, in the inference processing device 300, the prediction unit 33 is connected to the optimization parameter storage unit DB3, the 2D coordinate detection unit 34 is connected to the keyhole pattern storage unit DB4, The key parameter acquisition unit 37 is connected to the key parameter storage unit DB5.
 入力インターフェース31は、外部機器との入力インターフェースである。入力インターフェース31は、カメラC1により撮像された画像(または映像)DPinを入力し、入力したデータをデータDP1として、画像認識抽出部32に出力する。 The input interface 31 is an input interface with an external device. The input interface 31 inputs an image (or video) DPin captured by the camera C1, and outputs the input data as data DP1 to the image recognition extraction unit 32.
 画像認識抽出部32は、入力インターフェース31から出力されるデータDP1(画像DP1)を入力し、当該データDP1から所定の対象物を含む画像領域(例えば、入力画像が図21のImg4である場合の画像領域R1)を抽出する。そして、画像認識抽出部32は、抽出した画像をデータDP2(画像DP2)として予測部33に出力する。また、画像認識抽出部32は、抽出した画像領域に相当する空間が撮像対象の3次元空間内でどの位置に相当するかを特定するための情報をデータInfo_3D_extracted_imgとして3D座標推定部38に出力する。なお、データInfo_3D_extracted_imgには、例えば、画像DP1において、画像DP1の全画像領域の面積に対する所定の対象物が占有する画像領域の面積の割合を示すデータが含められる。 The image recognition extraction unit 32 inputs the data DP1 (image DP1) output from the input interface 31, and an image region including a predetermined target object from the data DP1 (for example, when the input image is Img4 in FIG. 21). The image region R1) is extracted. Then, the image recognition extraction unit 32 outputs the extracted image as data DP2 (image DP2) to the prediction unit 33. In addition, the image recognition extraction unit 32 outputs information for specifying which position in the three-dimensional space of the imaging target corresponds to the space corresponding to the extracted image area to the 3D coordinate estimation unit 38 as data Info_3D_extracted_img. .. It should be noted that the data Info_3D_extracted_img includes, for example, data indicating the ratio of the area of the image area occupied by the predetermined object to the area of the entire image area of the image DP1 in the image DP1.
 予測部33は、最適化パラメータ設定部331と、予測モデル(学習済みモデル)332とを備える。 The prediction unit 33 includes an optimization parameter setting unit 331 and a prediction model (learned model) 332.
 最適化パラメータ設定部331は、最適化パラメータ格納部DB3から、学習処理装置により取得された最適パラメータθ_optを取得する。そして、最適化パラメータ設定部331は、予測モデルに最適パラメータθ_optを設定する。これにより、予測モデル332は、学習処理装置200により取得された学習済みモデル(最適パラメータが設定されたときの学習用モデル202)と同じモデルとなる。 The optimization parameter setting unit 331 acquires the optimum parameter θ_opt acquired by the learning processing device from the optimization parameter storage unit DB3. Then, the optimization parameter setting unit 331 sets the optimum parameter θ_opt in the prediction model. As a result, the prediction model 332 becomes the same model as the learned model (the learning model 202 when the optimum parameters are set) acquired by the learning processing device 200.
 予測モデル332は、学習用モデル202と同様の構成を有するモデルであり、最適化パラメータ設定部331により、予測モデル332のパラメータが設定される。予測モデル332は、画像認識抽出部32から出力される画像DP2を入力し、対象物体の表面の鍵の種類と、当該鍵の位置情報とを含むデータを出力データDP3として、2D座標検出部34に出力する。 The prediction model 332 is a model having the same configuration as the learning model 202, and the parameters of the prediction model 332 are set by the optimization parameter setting unit 331. The prediction model 332 inputs the image DP2 output from the image recognition extraction unit 32, and sets the data including the key type of the surface of the target object and the position information of the key as output data DP3, and the 2D coordinate detection unit 34. Output to.
 2D座標検出部34は、予測モデル332から出力されるデータDP3と、画像認識抽出部32から出力される画像DP2とを入力する。また、2D座標検出部34は、鍵穴パターン格納部DB4から、パターンマッチング用のテンプレート(鍵穴パターンのテンプレート)データを入力する。2D座標検出部34は、予測モデル332により取得されたデータDP3に基づいて、画像DP2の鍵のおおよその位置(例えば、所定の表面の右側領域、あるいは、左側領域)を特定し、特定した位置に基づいて、鍵穴パターン格納部DB4から取得した鍵穴パターンのテンプレートを用いたパターンマッチングを行う。そして、2D座標検出部34は、パターンマッチングの検出結果のデータDP4と、パターンマッチングの検出精度accr1とを検出精度判定部35に出力する。 The 2D coordinate detection unit 34 inputs the data DP3 output from the prediction model 332 and the image DP2 output from the image recognition extraction unit 32. Further, the 2D coordinate detection unit 34 inputs pattern matching template (keyhole pattern template) data from the keyhole pattern storage unit DB4. The 2D coordinate detection unit 34 specifies the approximate position of the key of the image DP2 (for example, the right side area or the left side area of the predetermined surface) based on the data DP3 acquired by the prediction model 332, and the specified position Based on the above, pattern matching is performed using the keyhole pattern template acquired from the keyhole pattern storage unit DB4. Then, the 2D coordinate detection unit 34 outputs the data DP4 of the detection result of the pattern matching and the detection accuracy accr1 of the pattern matching to the detection accuracy determination unit 35.
 検出精度判定部35は、2D座標検出部34から出力されるパターンマッチングの検出結果のデータDP4と、パターンマッチングの検出精度accr1と入力し、入力したデータに基づいて、2D座標検出部34によるパターンマッチングの精度の判定を行う。そして、検出精度判定部35は、判定結果を示すデータRst1を撮影パラメータ調整部36に出力する。また、検出精度判定部35は、2D座標検出部34によるパターンマッチングの精度が十分であると判定した場合、パターンマッチングにより所定の精度を確保することができた鍵のパターンについての情報と、当該鍵の画像DP4上の座標位置のデータとを含むデータをデータDP5として、3D座標推定部38に出力する。 The detection accuracy determination unit 35 inputs the data DP4 of the detection result of the pattern matching output from the 2D coordinate detection unit 34 and the detection accuracy accr1 of the pattern matching, and based on the input data, the pattern by the 2D coordinate detection unit 34. Determine the matching accuracy. Then, the detection accuracy determination unit 35 outputs the data Rst1 indicating the determination result to the imaging parameter adjustment unit 36. Further, when the detection accuracy determination unit 35 determines that the accuracy of the pattern matching by the 2D coordinate detection unit 34 is sufficient, the information about the key pattern for which the predetermined accuracy can be ensured by the pattern matching, The data including the data of the coordinate position on the image DP4 of the key is output to the 3D coordinate estimating unit 38 as the data DP5.
 撮影パラメータ調整部36は、カメラC1から出力される撮影パラメータParam_camと、検出精度判定部35から出力される精度検出結果データRst1とを入力する。撮影パラメータ調整部36は、精度検出結果データRst1が十分な精度ではないことを示すデータであるとき、カメラC1の撮影パラメータ(例えば、焦点距離)を変更させるための制御信号Ctl1を生成し、カメラC1に出力する。また、撮影パラメータ調整部36は、カメラC1から取得した撮影パラメータParam_camを3D座標推定部38に出力する。 The shooting parameter adjustment unit 36 inputs the shooting parameter Param_cam output from the camera C1 and the accuracy detection result data Rst1 output from the detection accuracy determination unit 35. When the accuracy detection result data Rst1 is data indicating that the accuracy detection result data Rst1 is not sufficiently accurate, the imaging parameter adjustment unit 36 generates a control signal Ctl1 for changing the imaging parameter (for example, the focal length) of the camera C1, and Output to C1. Further, the shooting parameter adjustment unit 36 outputs the shooting parameter Param_cam acquired from the camera C1 to the 3D coordinate estimation unit 38.
 鍵パラメータ取得部37は、3D座標推定部38から出力される鍵パラメータの取得要求をする要求信号Req_keyを入力する。鍵パラメータ取得部37は、要求信号Req_keyを入力したら、当該要求信号Req_keyに基づいて、鍵パラメータ格納部DB5から要求信号Req_keyにより指定された鍵のパラメータを取得し、取得した鍵のパラメータを含むデータをデータPrm_keyとして3D座標推定部38に出力する。 The key parameter acquisition unit 37 inputs the request signal Req_key for requesting acquisition of the key parameter output from the 3D coordinate estimation unit 38. When the request signal Req_key is input, the key parameter acquisition unit 37 acquires the key parameter specified by the request signal Req_key from the key parameter storage unit DB5 based on the request signal Req_key, and the data including the acquired key parameter. Is output to the 3D coordinate estimation unit 38 as data Prm_key.
 3D座標推定部38は、検出精度判定部35から出力されるデータDP5を入力する。また、3D座標推定部38は、画像認識抽出部32から出力されるデータInfo_3D_extracted_imgと、撮像した3次元空間を特定するための情報(データ)Info_3Dと、撮影パラメータ調整部36から出力される撮影パラメータParam_camと、鍵パラメータから出力される鍵パラメータのデータPrm_keyとを入力する。 The 3D coordinate estimation unit 38 inputs the data DP5 output from the detection accuracy determination unit 35. Further, the 3D coordinate estimation unit 38 outputs the data Info_3D_extracted_img output from the image recognition extraction unit 32, information (data) Info_3D for specifying the captured three-dimensional space, and the shooting parameter output from the shooting parameter adjustment unit 36. Input Param_cam and key parameter data Prm_key output from the key parameter.
 3D座標推定部38は、データDP5と、データInfo_3D_extracted_imgと、データInfo_3Dと、撮影パラメータParam_camと、鍵パラメータのデータPrm_keyとに基づいて、画像DP1に写っている対象物体の表面の鍵の3次元座標を推定する。そして、3D座標推定部38は、その推定結果データをデータDPoutとして取得する。なお、3D座標推定部38は、CG物体(例えば、鍵穴)を合成する被対象物(対象物体)の大きさのデータを取得することができるものとし、(1)カメラC1の焦点距離と、(2)当該焦点距離によりカメラC1で撮像した画像(撮像画像DPin)における、全画像領域に対する対象物体に相当する画像領域が占有する割合とから、カメラC1から対象物体までの3次元距離を取得する。 The 3D coordinate estimating unit 38, based on the data DP5, the data Info_3D_extracted_img, the data Info_3D, the shooting parameter Param_cam, and the key parameter data Prm_key, the three-dimensional coordinates of the key of the surface of the target object shown in the image DP1. To estimate. Then, the 3D coordinate estimation unit 38 acquires the estimation result data as the data DPout. Note that the 3D coordinate estimation unit 38 is capable of acquiring data on the size of an object (target object) that synthesizes a CG object (for example, a keyhole), and (1) the focal length of the camera C1 and (2) The three-dimensional distance from the camera C1 to the target object is acquired from the ratio of the image area corresponding to the target object to the entire image area in the image (captured image DPin) captured by the camera C1 with the focal length. To do.
 <5.3.2:推論処理装置300の動作>
 以上のように構成された推論処理装置300の動作について、説明する。
<5.3.2: Operation of inference processing device 300>
The operation of the inference processing device 300 configured as above will be described.
 図28は、推論処理装置300の推論処理のフローチャートである。 FIG. 28 is a flowchart of the inference processing of the inference processing device 300.
 なお、以下では、推論処理装置300において、推論処理として、鍵の種類・位置判定処理を行う場合について、説明する。また、説明便宜のため、カメラC1により取得された画像(映像)が図29に示す画像Img5であるものとする。 In the following, a case will be described in which the inference processing device 300 performs key type/position determination processing as inference processing. Further, for convenience of explanation, it is assumed that the image (video) acquired by the camera C1 is the image Img5 shown in FIG.
 以下では、図28のフローチャートを参照しながら、学習用データ生成システム4000の動作について、説明する。 The operation of the learning data generation system 4000 will be described below with reference to the flowchart of FIG.
 (ステップS41):
 ステップS41において、入力インターフェース31は、カメラC1が撮像したデータDPin(画像Img5)を入力することで、カメラC1からの映像フレームを取得する。
(Step S41):
In step S41, the input interface 31 acquires the video frame from the camera C1 by inputting the data DPin (image Img5) captured by the camera C1.
 (ステップS42、S43):
 画像認識抽出部32は、画像Img5に写っている対象物体(直方体の物体)を画像認識処理で認識し、対象物体の画像領域を抽出する(ステップS42)。そして、画像認識抽出部32は、抽出した画像を画像DP2として、予測部33に出力する。
(Steps S42 and S43):
The image recognition extraction unit 32 recognizes the target object (a rectangular parallelepiped object) shown in the image Img5 by image recognition processing, and extracts the image area of the target object (step S42). Then, the image recognition extraction unit 32 outputs the extracted image as the image DP2 to the prediction unit 33.
 また、画像認識抽出部32は、抽出した物体の種別を判定する(ステップS43)。この物体の種別判定は、例えば、実施形態1により生成した学習データ(物体検出用学習データ)により学習させた学習済みモデルを用いた推論処理装置により行うことが好ましい。 Further, the image recognition extraction unit 32 determines the type of the extracted object (step S43). This type determination of the object is preferably performed by, for example, an inference processing device using a learned model learned by the learning data (learning data for object detection) generated in the first embodiment.
 また、予測部33は、画像DP2を予測モデル332に入力することで、対象物体の表面の鍵の種類と、当該鍵の位置情報とを含むデータDP3を取得する。 The prediction unit 33 also inputs the image DP2 into the prediction model 332 to acquire the data DP3 including the type of key on the surface of the target object and the position information of the key.
 そして、2D座標検出部34は、予測モデル332により取得されたデータDP3に基づいて、対象物体(直方体の物体)の表面の鍵の概略の位置(画像上の2次元座標位置)(例えば、所定の表面の右側領域、あるいは、左側領域)を特定する。 Then, the 2D coordinate detection unit 34, based on the data DP3 acquired by the prediction model 332, the approximate position of the key on the surface of the target object (cuboid object) (two-dimensional coordinate position on the image) (for example, a predetermined value). The right side area or the left side area of the surface of the.
 (ステップS44):
 ステップS44において、2D座標検出部34は、予測モデル332により取得されたデータDP3に基づいて、特定された画像DP2の鍵のおおよその位置(例えば、所定の表面の右側領域、あるいは、左側領域)に基づいて、鍵穴パターン格納部DB4から取得した鍵穴パターンのテンプレートを用いたパターンマッチングを行う。そして、2D座標検出部34は、パターンマッチングの検出結果のデータDP4と、パターンマッチングの検出精度accr1とを検出精度判定部35に出力する。なお、パターンマッチングの検出精度accr1は、例えば、以下の(1)、(2)により取得する。
(1)パターンマッチング対象画像(画像領域)の各画素の画素値P(i,j)(座標(i,j)の画素値)と、鍵穴パターンのテンプレートの各画素Pt(i,j)(座標(i,j)の画素値)との差分の絶対値の総和(パターンマッチングの対象とする全画像領域における総和)sum_errorを算出する。
(2)(1)で算出した総和sum_errorから、
  accr1=f1(sum_error)
  f1(x):xについての単調減少関数(x≧0)
に相当する処理により、パターンマッチングの検出精度accr1を取得する。なお、関数f1(x)は、x≧0で定義され、xについての単調減少関数であるものとする(つまり、f1(0)で最大値をとる関数であるものとする)。
(Step S44):
In step S44, the 2D coordinate detection unit 34, based on the data DP3 acquired by the prediction model 332, the approximate position of the key of the identified image DP2 (for example, the right side area or the left side area of the predetermined surface). Based on the above, pattern matching is performed using the keyhole pattern template acquired from the keyhole pattern storage unit DB4. Then, the 2D coordinate detection unit 34 outputs the data DP4 of the detection result of the pattern matching and the detection accuracy accr1 of the pattern matching to the detection accuracy determination unit 35. The detection accuracy accr1 of the pattern matching is acquired, for example, by the following (1) and (2).
(1) Pixel value P(i,j) of each pixel of the pattern matching target image (image area) (pixel value of coordinate (i,j)) and each pixel Pt(i,j) of the keyhole pattern template ( A sum (absolute sum in all image regions targeted for pattern matching) sum_error of absolute values of the difference from the pixel value of the coordinates (i, j) is calculated.
(2) From the sum sum_error calculated in (1),
accr1=f1 (sum_error)
f1(x): monotonically decreasing function for x (x≧0)
The detection accuracy accr1 of the pattern matching is acquired by the process corresponding to. The function f1(x) is defined as x≧0, and is assumed to be a monotonically decreasing function with respect to x (that is, a function having the maximum value at f1(0)).
 (ステップS45):
 ステップS45において、検出精度判定部35は、2D座標検出部34から出力されるパターンマッチングの検出結果のデータDP4と、パターンマッチングの検出精度accr1とを入力し、入力したデータに基づいて、2D座標検出部34によるパターンマッチングの精度の判定を行う。パターンマッチングの精度の判定は、例えば、パターンマッチングの検出精度accr1を所定の閾値Th1と比較することで実行される。
(Step S45):
In step S45, the detection accuracy determination unit 35 inputs the pattern matching detection result data DP4 output from the 2D coordinate detection unit 34 and the pattern matching detection accuracy accr1, and based on the input data, the 2D coordinates. The detection unit 34 determines the accuracy of pattern matching. The determination of the accuracy of the pattern matching is performed by, for example, comparing the detection accuracy accr1 of the pattern matching with a predetermined threshold Th1.
 そして、検出精度判定部35は、判定結果を示すデータRst1を撮影パラメータ調整部36に出力する。また、検出精度判定部35は、2D座標検出部34によるパターンマッチングの精度が十分であると判定した場合(例えば、accr1>Th1である場合)(ステップS45でYesの場合)、処理をステップS47に進め、一方、精度が十分ではないと判定した場合(ステップS45でNoの場合)、処理をステップS46に進める。 Then, the detection accuracy determination unit 35 outputs the data Rst1 indicating the determination result to the imaging parameter adjustment unit 36. Further, when the detection accuracy determination unit 35 determines that the accuracy of the pattern matching by the 2D coordinate detection unit 34 is sufficient (for example, when accr1>Th1) (Yes in step S45), the process is performed in step S47. If it is determined that the accuracy is not sufficient (No in step S45), the process proceeds to step S46.
 (ステップS46):
 撮影パラメータ調整部36は、精度検出結果データRst1が十分な精度ではないことを示すデータであるので、カメラC1の撮影パラメータ(例えば、焦点距離)を変更させるための制御信号Ctl1を生成し、カメラC1に出力する。これにより、例えば、鍵穴が存在する領域をズームする処理を実行できる。例えば、図30に示すように、領域R2が拡大されるように、カメラC1の焦点距離を調整し、図30の右図のズーム画像が取得されるようにする。図30の右図に示すズーム画像では、鍵穴のディテールが認識できるので、当該ズーム画像を用いてパターンマッチングをすることで、鍵穴の検出精度を向上させることができる。
(Step S46):
The shooting parameter adjustment unit 36 is data indicating that the accuracy detection result data Rst1 is not sufficiently accurate, and thus generates the control signal Ctl1 for changing the shooting parameter (for example, the focal length) of the camera C1, and the camera Output to C1. Thereby, for example, it is possible to execute a process of zooming the area where the keyhole exists. For example, as shown in FIG. 30, the focal length of the camera C1 is adjusted so that the region R2 is enlarged, and the zoom image in the right diagram of FIG. 30 is acquired. Since the details of the keyhole can be recognized in the zoom image shown on the right side of FIG. 30, it is possible to improve the detection accuracy of the keyhole by performing pattern matching using the zoom image.
 ステップS46の処理の後、処理をステップS44に戻す。 After the processing of step S46, the processing is returned to step S44.
 (ステップS47、S48):
 ステップS46での検出精度が十分であると判定された場合、3D座標推定部38は、検出精度判定部35から出力されるデータDP5(パターンマッチングにより所定の精度を確保することができた鍵のパターンについての情報と、当該鍵の画像DP上の座標位置のデータとを含むデータ)と、データInfo_3D_extracted_img(抽出画像に対応する領域の3次元座標を特定するためのデータ)と、データInfo_3D(撮像した3次元空間を特定するためのデータ)と、撮影パラメータParam_camと、鍵パラメータのデータPrm_keyと、を取得する(ステップS47)。
(Steps S47, S48):
When it is determined that the detection accuracy in step S46 is sufficient, the 3D coordinate estimation unit 38 outputs the data DP5 output from the detection accuracy determination unit 35 (the key of which the predetermined accuracy can be ensured by the pattern matching). Data including information about the pattern and data of the coordinate position on the image DP of the key), data Info_3D_extracted_img (data for specifying three-dimensional coordinates of a region corresponding to the extracted image), and data Info_3D (imaging). Data for identifying the three-dimensional space), the shooting parameter Param_cam, and the key parameter data Prm_key (step S47).
 3D座標推定部38は、(1)カメラC1の焦点距離と、(2)当該焦点距離によりカメラC1で撮像した画像(撮像画像DPin)における、全画像領域に対する対象物体に相当する画像領域が占有する割合とから、カメラC1から対象物体までの3次元距離を取得する。対象物体の大きさ(サイズ)が既知であり、撮像画像DPinが取得されたときのカメラC1の焦点距離が既知であるので、撮像画像DPin内の対象物体が占める割合が分かれば、カメラC1から対象物体C1までの3次元距離を取得することができる。したがって、3D座標推定部38は、(1)カメラC1の焦点距離と、(2)当該焦点距離によりカメラC1で撮像した画像(撮像画像DPin)における、全画像領域に対する対象物体に相当する画像領域が占有する割合とから、カメラC1から対象物体までの3次元距離を取得することができる。 The 3D coordinate estimating unit 38 occupies (1) the focal length of the camera C1 and (2) an image region corresponding to the target object for the entire image region in the image (captured image DPin) captured by the camera C1 with the focal length. And the three-dimensional distance from the camera C1 to the target object. Since the size of the target object is known and the focal length of the camera C1 when the captured image DPin is acquired is known, if the ratio of the target object in the captured image DPin is known, the The three-dimensional distance to the target object C1 can be acquired. Therefore, the 3D coordinate estimating unit 38 (1) the focal length of the camera C1 and (2) the image region (captured image DPin) captured by the camera C1 with the focal length, which corresponds to the target object for the entire image region. It is possible to acquire the three-dimensional distance from the camera C1 to the target object from the ratio occupied by.
 そして、3D座標推定部38は、取得したデータに基づいて、画像DP1に写っている対象物体の表面の鍵の3次元座標を推定する(ステップS48)。つまり、上記で取得したデータにより、対象物体の3次元座標データと、対象物体の表面上の鍵の位置、鍵のパターン、形状が分かるので、鍵の3次元空間内での位置を推定することができる。そして、このようにして推論したデータは、データDPoutとして取得される。 Then, the 3D coordinate estimation unit 38 estimates the three-dimensional coordinates of the key on the surface of the target object shown in the image DP1 based on the acquired data (step S48). That is, since the three-dimensional coordinate data of the target object and the position of the key, the pattern of the key, and the shape of the key on the surface of the target object can be known from the data acquired above, the position of the key in the three-dimensional space should be estimated. You can Then, the data thus inferred is acquired as the data DPout.
 以上のように、推論処理装置300では、学習処理装置200により学習したモデル(予測モデル(学習済みモデル)332)により、対象物体の鍵の種別と、鍵の概略位置を認識することができ、さらに、鍵のパターンとのパターンマッチングにより、鍵の正確な位置を取得することができる。そして、取得した鍵の正確な位置(抽出画像上の位置)を、鍵パターンのデータ、撮像空間の3次元座標データを用いて処理することで、当該鍵の3次元空間内の位置を高精度に推定することができる。 As described above, in the inference processing device 300, the model learned by the learning processing device 200 (prediction model (learned model) 332) can recognize the key type of the target object and the approximate position of the key, Furthermore, the exact position of the key can be acquired by pattern matching with the key pattern. Then, by processing the obtained accurate position of the key (position on the extracted image) using the data of the key pattern and the three-dimensional coordinate data of the imaging space, the position of the key in the three-dimensional space is highly accurate. Can be estimated.
 さらに、推論処理装置300では、パターンマッチングの精度判定を行い、精度が不十分である場合、カメラC1のズーム処理を行い、パターンマッチングの精度を向上させることができる。その結果、推論処理装置300では、高精度の鍵位置の推論処理を行うことができる。 Furthermore, the inference processing device 300 can determine the accuracy of the pattern matching, and if the accuracy is insufficient, the zoom processing of the camera C1 can be performed to improve the accuracy of the pattern matching. As a result, the inference processing device 300 can perform highly accurate key position inference processing.
 なお、上記では、説明便宜のために、学習処理装置200と推論処理装置300とが別個の装置であるものとして説明したが、これに限定されることはない。例えば、学習処理装置200と推論処理装置300とを1つの装置として、学習処理モードと推論処理モードとを設け、モードにより処理を1つの装置で行うようにしてもよい。この場合、学習用モデル202と予測モデル(学習済みモデル)332を共通にしてもよい(1つのモデルに対して、学習処理を行い、最適パラメータが取得できた段階で、当該パラメータを最適パラメータに固定することで学習済みモデルを取得するようにしてもよい)。 In the above description, for convenience of explanation, the learning processing device 200 and the inference processing device 300 are described as separate devices, but the invention is not limited to this. For example, the learning processing device 200 and the inference processing device 300 may be a single device, and a learning processing mode and an inference processing mode may be provided, and the processing may be performed by a single device depending on the mode. In this case, the learning model 202 and the prediction model (learned model) 332 may be shared (when the learning process is performed on one model and the optimum parameter is acquired, the parameter is set to the optimum parameter. The learned model may be acquired by fixing it).
 [他の実施形態]
 上記実施形態および変形例を組み合わせて、学習用データ生成システム、学習用データ生成装置を構成するようにしてもよい。
[Other Embodiments]
You may make it comprise a learning data production|generation system and a learning data production|generation apparatus by combining the said embodiment and modification.
 上記実施形態および変形例では、デカルト座標により座標を設定した場合を前提として説明したが、これに限定されず、極座標等の別の座標系を使用してもよい。 In the above-described embodiment and modified example, the description has been made on the assumption that the coordinates are set by Cartesian coordinates, but the present invention is not limited to this, and another coordinate system such as polar coordinates may be used.
 また、CG処理部によりCGで作成する物体(CG物体)の形状は、略直方体以外の形状であってもよい。 The shape of an object (CG object) created by CG by the CG processing unit may be a shape other than a substantially rectangular parallelepiped.
 なお、検出対象物の形状が略直方体であり、例えば、1つの面が特定される物体(例えば、1つの面に必ず鍵穴が設けられているキャッシュボックス)を検出対象として、本発明を適用することで、例えば、キャッシュボックスのような所定の姿勢で所定の場所に置く処理を実行する処理のための物体検出処理、姿勢検出処理を高精度に実現する学習済みモデルを効率よく取得することができる。 It should be noted that the present invention is applied to the case where the shape of the detection target is a substantially rectangular parallelepiped and, for example, an object whose one surface is specified (for example, a cash box in which one surface is always provided with a keyhole) is the detection target. Thus, for example, it is possible to efficiently acquire a learned model that implements the object detection process and the posture detection process for the process of performing the process of placing the device in a predetermined position in a predetermined posture such as a cash box with high accuracy. it can.
 また、上記実施形態で説明した学習用データ生成システム、学習用データ生成装置において、各ブロックは、LSIなどの半導体装置により個別に1チップ化されても良いし、一部又は全部を含むように1チップ化されても良い。 Further, in the learning data generation system and the learning data generation device described in the above embodiments, each block may be individually made into one chip by a semiconductor device such as an LSI, or a part or all of the blocks may be included. It may be integrated into one chip.
 なお、ここでは、LSIとしたが、集積度の違いにより、IC、システムLSI、スーパーLSI、ウルトラLSIと呼称されることもある。 Note that although the term LSI is used here, it may also be called IC, system LSI, super LSI, or ultra LSI depending on the degree of integration.
 また、集積回路化の手法はLSIに限るものではなく、専用回路又は汎用プロセサで実現してもよい。LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサーを利用しても良い。 Also, the method of circuit integration is not limited to LSI, and it may be realized by a dedicated circuit or a general-purpose processor. After manufacturing the LSI, a programmable programmable gate array (FPGA) or a reconfigurable processor capable of reconfiguring connection and setting of circuit cells inside the LSI may be used.
 また、上記各実施形態の各機能ブロックの処理の一部または全部は、プログラムにより実現されるものであってもよい。そして、上記各実施形態の各機能ブロックの処理の一部または全部は、コンピュータにおいて、中央演算装置(CPU)により行われる。また、それぞれの処理を行うためのプログラムは、ハードディスク、ROMなどの記憶装置に格納されており、ROMにおいて、あるいはRAMに読み出されて実行される。 Also, some or all of the processing of each functional block of each of the above embodiments may be realized by a program. Then, a part or all of the processing of each functional block of each of the above-described embodiments is performed by a central processing unit (CPU) in a computer. A program for performing each processing is stored in a storage device such as a hard disk or a ROM, and is read out and executed in the ROM or the RAM.
 また、上記実施形態の各処理をハードウェアにより実現してもよいし、ソフトウェア(OS(オペレーティングシステム)、ミドルウェア、あるいは、所定のライブラリとともに実現される場合を含む。)により実現してもよい。さらに、ソフトウェアおよびハードウェアの混在処理により実現しても良い。 Also, each process of the above embodiment may be realized by hardware, or may be realized by software (including a case where it is realized together with an OS (operating system), middleware, or a predetermined library). Further, it may be realized by mixed processing of software and hardware.
 例えば、上記実施形態(変形例を含む)の各機能部を、ソフトウェアにより実現する場合、図31に示したハードウェア構成(例えば、CPU、ROM、RAM、入力部、出力部等をバスBusにより接続したハードウェア構成)を用いて、各機能部をソフトウェア処理により実現するようにしてもよい。 For example, when each functional unit of the above-described embodiment (including modified examples) is implemented by software, the hardware configuration shown in FIG. 31 (for example, CPU, ROM, RAM, input unit, output unit, etc., is implemented by a bus Bus). Each functional unit may be realized by software processing using the connected hardware configuration).
 また、上記実施形態の各機能部をソフトウェアにより実現する場合、当該ソフトウェアは、図31に示したハードウェア構成を有する単独のコンピュータを用いて実現されるものであってもよいし、複数のコンピュータを用いて分散処理により実現されるものであってもよい。 When each functional unit of the above-described embodiment is realized by software, the software may be realized by using a single computer having the hardware configuration shown in FIG. 31, or may be realized by a plurality of computers. It may be realized by distributed processing using.
 また、上記実施形態における処理方法の実行順序は、必ずしも、上記実施形態の記載に制限されるものではなく、発明の要旨を逸脱しない範囲で、実行順序を入れ替えることができるものである。 Further, the execution order of the processing methods in the above embodiments is not necessarily limited to the description of the above embodiments, and the execution order can be changed without departing from the gist of the invention.
 前述した方法をコンピュータに実行させるコンピュータプログラム及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体は、本発明の範囲に含まれる。ここで、コンピュータ読み取り可能な記録媒体としては、例えば、フレキシブルディスク、ハードディスク、CD-ROM、MO、DVD、DVD-ROM、DVD-RAM、Blu-ray(登録商標)、次世代光ディスク、半導体メモリを挙げることができる。 A computer program that causes a computer to execute the above-described method and a computer-readable recording medium that records the program are included in the scope of the present invention. Here, examples of the computer-readable recording medium include a flexible disk, a hard disk, a CD-ROM, an MO, a DVD, a DVD-ROM, a DVD-RAM, a Blu-ray (registered trademark), a next-generation optical disk, and a semiconductor memory. Can be mentioned.
 上記コンピュータプログラムは、上記記録媒体に記録されたものに限られず、電気通信回線、無線又は有線通信回線、インターネットを代表とするネットワーク等を経由して伝送されるものであってもよい。 The computer program is not limited to the one recorded on the recording medium, and may be transmitted via an electric communication line, a wireless or wired communication line, a network typified by the Internet, or the like.
 なお、本発明の具体的な構成は、前述の実施形態に限られるものではなく、発明の要旨を逸脱しない範囲で種々の変更および修正が可能である。 The specific configuration of the present invention is not limited to the above-described embodiment, and various changes and modifications can be made without departing from the spirit of the invention.
Sys1 学習推論処理システム
1000、1000、3000 学習用データ生成システム
100、100A、100B 学習用データ生成装置
200 学習処理装置
300 推論処理装置
1、1A 背景画像データ取得部
2、2A、2B CG処理部
3、3A レンダリング処理部
4、4A、4B 学習用データ生成部
5 手動バウンディングボックス情報入力部
Sys1 learning inference processing system 1000, 1000, 3000 learning data generation system 100, 100A, 100B learning data generation device 200 learning processing device 300 inference processing device 1, 1A background image data acquisition unit 2, 2A, 2B CG processing unit 3 3A Rendering processing unit 4, 4A, 4B Learning data generation unit 5 Manual bounding box information input unit

Claims (10)

  1.  所定の3次元空間を撮像して取得した背景画像を取得する背景画像取得ステップと、
     物体の形状およびテクスチャーの少なくとも1つを含むコンピュータグラフィックス処理用のデータであるCG物体生成用データを取得し、取得した前記CG物体生成用データに基づいて生成されるCG物体を、前記背景画像の撮像対象とした前記3次元空間内の所定の座標位置に配置されるように前記背景画像に合成することで取得される画像であるレンダリング画像を学習用画像データとして取得する学習用画像データ取得ステップと、
    を備える学習用データ生成方法。
    A background image acquisition step of acquiring a background image acquired by imaging a predetermined three-dimensional space,
    The CG object generation data that is data for computer graphics processing including at least one of the shape and texture of the object is acquired, and the CG object generated based on the acquired CG object generation data is used as the background image. Image data acquisition for learning that acquires, as learning image data, a rendering image that is an image acquired by combining the background image so as to be arranged at a predetermined coordinate position in the three-dimensional space that is the imaging target of Steps,
    A method for generating learning data, comprising:
  2.  前記学習用画像データから、前記レンダリング画像上において、前記CG物体を囲む領域である2次元バウンディング領域を設定し、前記2次元バウンディングの座標情報を学習用位置ラベルとして取得する学習用位置ラベル取得ステップをさらに備える、
     請求項1に記載の学習用データ生成方法。
    A learning position label acquisition step of setting a two-dimensional bounding area that is an area surrounding the CG object on the rendered image from the learning image data and acquiring coordinate information of the two-dimensional bounding as a learning position label. Further comprising,
    The learning data generation method according to claim 1.
  3.  前記学習用画像データから、前記レンダリング画像上において、前記CG物体を囲む画像領域を抽出することで取得した画像であるクロップ画像を姿勢検出用画像データとして取得する姿勢検出用画像データ取得ステップと、
     前記姿勢検出用画像データに含まれる前記CG物体の姿勢に関する情報と前記姿勢検出用画像データとを対応付けたデータを姿勢検出用学習データとして取得する姿勢検出用学習データ取得ステップと、
    をさらに備える、
     請求項1に記載の学習用データ生成方法。
    An attitude detection image data acquisition step of acquiring, as the attitude detection image data, a cropped image that is an image acquired by extracting an image region surrounding the CG object on the rendered image from the learning image data.
    An attitude detection learning data acquisition step of acquiring, as attitude detection learning data, data in which information on the attitude of the CG object included in the attitude detection image data and the attitude detection image data are associated with each other;
    Further comprising,
    The learning data generation method according to claim 1.
  4.  前記学習用画像データ取得ステップは、
     前記背景画像に実物の処理対象物体が含まれている場合、当該処理対象物体を含む画像領域以外の画像領域に、前記CG物体が配置されるように前記レンダリング画像を生成する、
     請求項1から3のいずれかに記載の学習用データ生成方法。
    The learning image data acquisition step,
    When the background image includes an actual processing target object, the rendering image is generated such that the CG object is arranged in an image area other than the image area including the processing target object.
    The learning data generation method according to claim 1.
  5.  前記背景画像は、第1物体を含む画像であり、
     前記CG物体は、少なくとも一部が前記第1物体の表面上に配置されるように、前記背景画像に合成される、
     請求項1に記載の学習用データ生成方法。
    The background image is an image including a first object,
    The CG object is combined with the background image such that at least a portion of the CG object is arranged on the surface of the first object,
    The learning data generation method according to claim 1.
  6.  前記背景画像取得ステップは、前記背景画像に、第1物体を含む画像を合成することで第1背景画像を取得し、
     前記CG物体は、少なくとも一部が前記第1物体の表面上に配置されるように、前記第1背景画像に合成される、
     請求項1に記載の学習用データ生成方法。
    The background image acquisition step acquires a first background image by combining an image including a first object with the background image,
    The CG object is combined with the first background image so that at least a portion of the CG object is arranged on the surface of the first object,
    The learning data generation method according to claim 1.
  7.  前記CG物体は、前記第1物体において鍵穴を形成する形状を有している、
     請求項5または6に記載の学習用データ生成方法。
    The CG object has a shape that forms a keyhole in the first object,
    The learning data generation method according to claim 5.
  8.  所定の3次元空間を撮像して取得した背景画像を取得する背景画像データ取得部と、
     物体の形状およびテクスチャーの少なくとも1つを含むコンピュータグラフィックス処理用のデータであるCG物体生成用データを取得し、取得した前記CG物体生成用データに基づいて生成されるCG物体を、前記背景画像の撮像対象とした前記3次元空間内の所定の座標位置に配置されるように前記背景画像に合成することで取得される画像であるレンダリング画像を学習用画像データとして取得する学習用画像データ取得部と、
    を備える学習用データ生成装置。
    A background image data acquisition unit that acquires a background image acquired by imaging a predetermined three-dimensional space;
    The CG object generation data that is data for computer graphics processing including at least one of the shape and texture of the object is acquired, and the CG object generated based on the acquired CG object generation data is used as the background image. Image data acquisition for learning that acquires, as learning image data, a rendering image that is an image acquired by combining the background image so as to be arranged at a predetermined coordinate position in the three-dimensional space that is the imaging target of Department,
    A data generation device for learning comprising.
  9.  請求項5から7のいずれかに記載の学習用データ生成方法により取得した学習用データを用いて、学習処理を実行することで、学習済みモデルを取得する学習済みモデル取得ステップと、
     前記第1物体の表面上に配置されている所定の形状を含む画像を入力とし、前記学習済みモデルによる予測処理を実行することで、前記所定の形状の位置を特定するためのデータを出力する予測処理ステップと、
    を備える推論処理方法。
    A learned model acquisition step of acquiring a learned model by executing a learning process using the learning data acquired by the learning data generation method according to claim 5.
    By inputting an image including a predetermined shape arranged on the surface of the first object and executing a prediction process by the learned model, data for specifying the position of the predetermined shape is output. A prediction processing step,
    An inference processing method including.
  10.  前記所定の形状の位置を特定するためのデータの検出精度を判定する検出精度判定ステップと、
     前記第1物体の表面上に配置されている所定の形状を含む画像を撮像する撮像装置の撮影パラメータを調整する撮影パラメータ調整ステップと、
    をさらに備え、
     前記所定の形状の位置を特定するためのデータの検出精度が所定の閾値よりも低い場合、
     前記撮影パラメータ調整ステップが前記撮像装置の前記撮影パラメータを変更した後、前記予測処理ステップは、前記予測処理を実行する、
     請求項9に記載の推論処理方法。
    A detection accuracy determination step of determining the detection accuracy of the data for identifying the position of the predetermined shape,
    A photographing parameter adjusting step of adjusting a photographing parameter of an image pickup device for picking up an image including a predetermined shape arranged on the surface of the first object;
    Further equipped with,
    When the detection accuracy of the data for specifying the position of the predetermined shape is lower than a predetermined threshold value,
    After the shooting parameter adjustment step changes the shooting parameter of the imaging device, the prediction processing step executes the prediction processing,
    The inference processing method according to claim 9.
PCT/JP2019/040667 2019-01-22 2019-10-16 Training data generation method, training data generation device, and inference processing method WO2020152927A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019-008307 2019-01-22
JP2019008307A JP6675691B1 (en) 2019-01-22 2019-01-22 Learning data generation method, program, learning data generation device, and inference processing method

Publications (1)

Publication Number Publication Date
WO2020152927A1 true WO2020152927A1 (en) 2020-07-30

Family

ID=70001017

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/040667 WO2020152927A1 (en) 2019-01-22 2019-10-16 Training data generation method, training data generation device, and inference processing method

Country Status (2)

Country Link
JP (1) JP6675691B1 (en)
WO (1) WO2020152927A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022201422A1 (en) * 2021-03-25 2022-09-29 三菱電機株式会社 Image processing device, program, and image processing method

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102323413B1 (en) * 2020-05-12 2021-11-09 광주과학기술원 Method for estimating pose of camera
JP7453848B2 (en) * 2020-05-21 2024-03-21 清水建設株式会社 Face image processing device, face image processing method
WO2022157892A1 (en) * 2021-01-21 2022-07-28 日本電信電話株式会社 Image selection device, image selection method, and image selection program
KR102393801B1 (en) * 2021-12-27 2022-05-03 주식회사 딥노이드 Apparatus for generating training data through background synthesis and method therefor
JP2023183255A (en) * 2022-06-15 2023-12-27 株式会社日立製作所 Learning data generation device

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017171005A1 (en) * 2016-04-01 2017-10-05 株式会社wise 3-d graphic generation, artificial intelligence verification and learning system, program, and method
JP2018169690A (en) * 2017-03-29 2018-11-01 日本電信電話株式会社 Image processing device, image processing method, and image processing program

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017171005A1 (en) * 2016-04-01 2017-10-05 株式会社wise 3-d graphic generation, artificial intelligence verification and learning system, program, and method
JP2018169690A (en) * 2017-03-29 2018-11-01 日本電信電話株式会社 Image processing device, image processing method, and image processing program

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022201422A1 (en) * 2021-03-25 2022-09-29 三菱電機株式会社 Image processing device, program, and image processing method
JP7317260B2 (en) 2021-03-25 2023-07-28 三菱電機株式会社 Image processing device, program and image processing method

Also Published As

Publication number Publication date
JP2020119127A (en) 2020-08-06
JP6675691B1 (en) 2020-04-01

Similar Documents

Publication Publication Date Title
WO2020152927A1 (en) Training data generation method, training data generation device, and inference processing method
CN110998659B (en) Image processing system, image processing method, and program
JP6011102B2 (en) Object posture estimation method
JP4284664B2 (en) Three-dimensional shape estimation system and image generation system
JP4930854B2 (en) Joint object position / posture estimation apparatus, method and program thereof
JP6685827B2 (en) Image processing apparatus, image processing method and program
JP2020526818A (en) Methods and systems for performing simultaneous localization and mapping using convolutional image transformation
JP2011198349A (en) Method and apparatus for processing information
JP2019057248A (en) Image processing system, image processing device, image processing method and program
JP5631086B2 (en) Information processing apparatus, control method therefor, and program
CN111862299A (en) Human body three-dimensional model construction method and device, robot and storage medium
JP7064257B2 (en) Image depth determination method and creature recognition method, circuit, device, storage medium
US20200057778A1 (en) Depth image pose search with a bootstrapped-created database
JP2016099982A (en) Behavior recognition device, behaviour learning device, method, and program
CN111553284A (en) Face image processing method and device, computer equipment and storage medium
JP2013120556A (en) Object attribute estimation device and video plotting device
CN113221647A (en) 6D pose estimation method fusing point cloud local features
JP5503510B2 (en) Posture estimation apparatus and posture estimation program
WO2022201803A1 (en) Information processing device, information processing method, and program
JP2013101423A (en) Image matching device and image matching program
JP2008204318A (en) Image processor, image processing method and image processing program
JP2017122993A (en) Image processor, image processing method and program
CN115471863A (en) Three-dimensional posture acquisition method, model training method and related equipment
JP7326965B2 (en) Image processing device, image processing program, and image processing method
JP2009048305A (en) Shape analysis program and shape analysis apparatus

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19911567

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19911567

Country of ref document: EP

Kind code of ref document: A1