WO2021071081A1 - 3차원 형상 추정 장치를 포함하는 조리 기기 및 그 제어 방법 - Google Patents

3차원 형상 추정 장치를 포함하는 조리 기기 및 그 제어 방법 Download PDF

Info

Publication number
WO2021071081A1
WO2021071081A1 PCT/KR2020/010882 KR2020010882W WO2021071081A1 WO 2021071081 A1 WO2021071081 A1 WO 2021071081A1 KR 2020010882 W KR2020010882 W KR 2020010882W WO 2021071081 A1 WO2021071081 A1 WO 2021071081A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
dimensional
target object
shape
background
Prior art date
Application number
PCT/KR2020/010882
Other languages
English (en)
French (fr)
Inventor
아카자와요시아키
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP2019184903A external-priority patent/JP2021060294A/ja
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Publication of WO2021071081A1 publication Critical patent/WO2021071081A1/ko

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A47FURNITURE; DOMESTIC ARTICLES OR APPLIANCES; COFFEE MILLS; SPICE MILLS; SUCTION CLEANERS IN GENERAL
    • A47JKITCHEN EQUIPMENT; COFFEE MILLS; SPICE MILLS; APPARATUS FOR MAKING BEVERAGES
    • A47J36/00Parts, details or accessories of cooking-vessels
    • A47J36/32Time-controlled igniting mechanisms or alarm devices
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01BMEASURING LENGTH, THICKNESS OR SIMILAR LINEAR DIMENSIONS; MEASURING ANGLES; MEASURING AREAS; MEASURING IRREGULARITIES OF SURFACES OR CONTOURS
    • G01B11/00Measuring arrangements characterised by the use of optical techniques
    • G01B11/22Measuring arrangements characterised by the use of optical techniques for measuring depth
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • G06T17/20Finite element generation, e.g. wire-frame surface description, tesselation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/593Depth or shape recovery from multiple images from stereo images

Definitions

  • the disclosed invention relates to a three-dimensional shape estimation apparatus, a cooking apparatus including a three-dimensional shape estimation apparatus, and a control method thereof.
  • Patent Document 1 Japanese Unexamined Patent Publication No. 2018-146177
  • Non-Patent Document 1 Ma, F., Karaman, S.: Sparse-to-dense: Depth prediction from sparse depth samples and a single image. In: ICRA, pp. 1-8(2018)
  • a three-dimensional measurement method using two or more cameras has attracted attention as being applied to a low-cost three-dimensional measuring device.
  • the distance between the cameras affects the 3D measurement performance, the size of the device has increased, and a precise calibration is required to precisely measure the positional relationship of the cameras. In this approach, the required space becomes large and the required cost is high.
  • a photographing means for generating an RGB (red, green, blue) image by photographing a target object located in a space; Based on the space-specific three-dimensional information obtained by measuring the space, a two-dimensional image obtained by photographing a sample object having an existing three-dimensional shape by the photographing means, and a three-dimensional shape of the sample object, a machine Means for storing a model for estimating a three-dimensional shape from the RGB image generated by learning; Means for calculating a three-dimensional shape of the target object or a position of the target object in the space from the RGB image of the target object using the model for estimating the three-dimensional shape; A three-dimensional shape estimation apparatus is provided.
  • RGB red, green, blue
  • a photographing means for photographing a target object located in a space to generate an RGB (red, green, blue) image; Based on the space-specific three-dimensional information obtained by measuring the space, a two-dimensional image obtained by photographing a sample object having an existing three-dimensional shape by the photographing means, and a three-dimensional shape of the sample object, 2 Learning means for generating a model for estimating a three-dimensional shape from the dimensional image by machine learning; Means for storing a model for estimating the three-dimensional shape; Means for calculating a three-dimensional shape of the target object or a position of the target object in the space from a two-dimensional image of the target object using the model for estimating the three-dimensional shape; A three-dimensional shape estimation apparatus is provided.
  • a target object located in a space is photographed to generate an RGB (red, green, blue) image, and the space-specific three-dimensional information obtained by measuring the space, and having an existing three-dimensional shape
  • a three-dimensional shape estimation method comprising calculating a three-dimensional shape of the target object or a position of the target object in the space from the two-dimensional image of the target object is provided.
  • a target object located in a space is photographed to generate an RGB (red, green, blue) image, and the space-specific three-dimensional information obtained by measuring the space, and having an existing three-dimensional shape
  • a two-dimensional image obtained by photographing a sample object and a model for estimating a three-dimensional shape from the two-dimensional image based on the three-dimensional shape of the sample object are generated by machine learning, and a model for estimating the three-dimensional shape is stored.
  • calculating a three-dimensional shape of the target object or a position of the target object in the space from a two-dimensional image of the target object using a model for estimating the three-dimensional shape.
  • a cooking device includes: a cooking chamber in which a target object is disposed; A heating device for heating the target object; A camera that acquires a two-dimensional image of the target object located in the cooking chamber; A memory for storing 3D information of the cooking chamber and an estimation model for estimating a 3D shape of the target object; And using the two-dimensional image of the target object, the three-dimensional information of the cooking chamber, and the estimation model, obtaining a three-dimensional shape image of the target object and the entire area including the cooking chamber, It may include a; processor for obtaining a three-dimensional shape of the target object from the dimensional shape image.
  • a method for controlling a cooking appliance includes: acquiring a two-dimensional image of a target object located in a cooking chamber of the cooking appliance; Using a two-dimensional image of the target object, three-dimensional information of the cooking compartment stored in a memory, and an estimation model for estimating a three-dimensional shape of the target object, a three-dimensional view of the entire area including the target object and the cooking compartment Obtaining a shape image; And obtaining a three-dimensional shape of the target object from a three-dimensional shape image of the entire area.
  • the disclosed invention can improve the accuracy of 3D shape estimation by using a monocular camera.
  • FIG. 1 is a block diagram of an apparatus for estimating a 3D shape according to an exemplary embodiment.
  • FIG. 2 is a diagram illustrating a method of generating a three-dimensional shape image of a background area.
  • 3 is a block diagram showing the structure of a learning means.
  • FIG. 4 is a block diagram of a system for realizing a three-dimensional shape estimation apparatus and a learning method.
  • FIG. 5 is a flowchart illustrating a processing algorithm for realizing a 3D shape estimation apparatus according to an exemplary embodiment.
  • FIG. 6 is a diagram for comparing a reference paper with a result of estimating a 3D shape and a position using an algorithm of the present invention.
  • FIG. 7 is a block diagram illustrating a configuration of a cooking device according to an exemplary embodiment.
  • the present invention proposes a new approach to the depth estimation problem under a fixed size environment such as a smart home appliance.
  • Means for solving this problem are specifically as follows.
  • a convolutional neural network (CNN) is trained using a database of background images excluding the target object and 3D shape information of the background as a set.
  • the optimization function minimizes an error with 3D location information of the existing background.
  • food in/out management in a space of an electronic device may be performed.
  • An example of such an electronic device is a refrigerator that functions as a food storage warehouse.
  • Components of electronic devices include storage and photographing devices.
  • the storage room is a space for storing objects, and the existing three-dimensional size is defined.
  • the photographing device is one camera capable of photographing objects to be stored.
  • an additional sensor or the like is not required, and a three-dimensional image can be obtained with only one camera.
  • three-dimensional image refers to a three-dimensional image of a space (for example, an internal space of a refrigerator main body) and a three-dimensional image of a target object (for example, food ingredients in a refrigerator) in the space.
  • the shape image is collectively referred to.
  • the three-dimensional (3D) shape estimation apparatus 10 includes a two-dimensional (2D) image capturing unit 100 and a depth image generating unit 200.
  • the two-dimensional image photographing unit 100 which functions as a photographing means, includes one camera 110 located in space, and generates a two-dimensional image 205 by photographing a target object in space.
  • the two-dimensional image 205 may be an RGB (red, green, blue) image, and may be any suitable two-dimensional image. That is, the 2D image 205 may be a monochrome image or a two primary color image.
  • the depth image generator 200 generates a 3D shape image 245 for the entire area based on the 2D image 205 and a model for estimating the 3D shape. In other words, the depth image generator 200 may obtain depth information based on the 2D image 205.
  • the three-dimensional shape image inference unit 240 of the depth image generation unit 200 captures spatial-specific three-dimensional information obtained by measuring the space, and a sample object having an existing three-dimensional shape with the camera 110 Based on the obtained two-dimensional image and the three-dimensional shape of the sample object, a model for estimating a three-dimensional shape from an RGB image generated by machine learning (simply referred to as "estimation model”) is stored.
  • the depth image generator 200 calculates a 3D shape of the target object and/or a position of the target object in space from the RGB image 205 of the target object using a model for estimating a 3D shape.
  • the background region extraction unit 210 extracts a background region, which is a space (cavity) excluding a target object from the two-dimensional image 205, and generates and outputs an image 215 with the background region erased (ie, masked). do.
  • the existing data storage unit 220 stores data related to a three-dimensional shape (size) inside an electronic device (eg, a refrigerator).
  • the background 3D data generation unit 230 generates a masked 2D image 215 output from the background region extraction unit 210 and a background 3D shape image 225 output from the existing data storage unit 220. By synthesizing, a masked three-dimensional shape image 235 is generated and output.
  • the background region extraction unit 210 receives the 2D image 205, generates an image 215 in which the background is masked, and outputs it.
  • the background 3D data generator 230 receives the masked image 215 and the 3D shape image 225 of the background, and generates and outputs the 3D shape image 235 of the masked background.
  • the accuracy of depth estimation (three-dimensional shape estimation) by a monocular camera may be improved by introducing an existing size of a space as a partial depth image (a background three-dimensional shape image 225).
  • the 3D shape image inference unit 240 receives the 2D image 205 and the masked 3D shape image 235 as inputs, and supplements the depth of the installed object to provide a 3D shape image for the entire area ( 245).
  • the 3D shape image inference unit 240 has the same neural network structure as the learning means 300 to be described later, and is essentially the same.
  • An electronic device includes a 3D shape estimation apparatus 10.
  • the above-described space may be a cavity of an electronic device.
  • this space may be a space of a refrigerator compartment or a freezer.
  • an operation parameter eg, a refrigeration mode or a set temperature
  • the refrigerator mode may be changed from general refrigeration to rapid refrigeration.
  • an electronic device including the 3D shape estimation apparatus 10 may be an air conditioner.
  • the above-described space may be an interior of a house.
  • the target object is a person indoors, and an operation parameter (eg, a cooling mode) of the air conditioner may be changed according to the person's indoor location.
  • the electronic device is based on space-specific three-dimensional information obtained by measuring space, a two-dimensional image of a sample object obtained by photographing an existing sample object having a three-dimensional shape with a photographing means, and three-dimensional shape information of the sample object.
  • it may include a learning means for generating a model for estimating a three-dimensional shape from the RGB image through machine learning.
  • a model for estimating a three-dimensional shape from a two-dimensional RGB image of an indoor room photographed with a camera can be generated by machine learning.
  • the three-dimensional size of the room only needs to be measured once.
  • the three-dimensional positions of people and electronic devices in the room may be estimated.
  • the air volume of the air conditioner can be changed according to the distance from the air conditioner to a person. For example, when the distance from the air conditioner to a person is large, the air volume of the air conditioner may be changed more strongly than usual.
  • the electronic device including the 3D shape estimation apparatus 10 may be the cooking device 1.
  • the cooking device 1 may be an oven or a microwave oven.
  • the internal space of the cooking appliance 1 may mean a cooking chamber.
  • a tray may be disposed in the cooking chamber.
  • the cooking appliance 1 may include a heating device 20 that heats a target object disposed in the cooking chamber.
  • the heating device 20 may include at least one of a heater or a magnetron.
  • the camera 110 may be provided above the cooking chamber.
  • the cooking device 1 uses a 2D image of a target object (food material) located in the cooking chamber obtained by the camera 110 and 3D information and an estimation model of the cooking chamber previously stored in the memory 420 to determine the target object and the cooking chamber.
  • the cooking appliance 1 is based on a three-dimensional shape image of a target object (food ingredient) arranged in the cooking chamber, based on the operating parameters of the cooking appliance 1 (e.g., the temperature of the heater, the output of the magnetron, the heating time). Can be configured to change. For example, when the estimated three-dimensional shape image 245 represents a large food ingredient, the cooking appliance 1 may increase the heating time. In this case, the operating time of the heating device 20 included in the cooking appliance 1 increases.
  • Non-Patent Document 1 (hereinafter referred to as a reference paper) some of the measurement data of the 3D sensor is randomly provided as existing information.
  • three-dimensional size data stored in advance (such as CAD data used when manufacturing electronic devices) is provided as existing information for all areas (background areas) other than the target object. Accordingly, the present invention has a pre-processing function of separating a measurement target object and a background.
  • the learning means 300 includes an encoder 310, a decoder 320, a synthesis function 330, a convolution function 340, and a batch normalization function 350.
  • the encoder 310 performs feature extraction (combined with abstraction and reduction of the image) from the input image to obtain an image representing the depth feature, and performs information compression to remove other noisy images.
  • the decoder 320 compensates for the missing part in the feature-extracted (abstracted and reduced) image, and performs an information restoration operation of restoring the feature-extracted image to an original image.
  • the feature image group for calculating the final 3D image reconstructed and output by the decoder 320 is called an output feature map. Since the input image is compressed and decompressed by passing through the encoder 310 and the decoder 320, the resulting output image (output feature map) becomes a blurry image.
  • the convolution function 340 performs an operation of extracting features from an image using a filter called a kernel.
  • the batch normalization function 350 performs an operation of limiting the layer output to an appropriate value so that the distribution of each layer of the neural network is appropriate.
  • the encoder 310 receives a 2D image 205 of a target object and a 3D shape image 235 of a background.
  • the learning means 300 extracts a background area other than a target object from an RGB image as input information for machine learning, and adds depth information derived from the spatial 3D information to the extracted background area, thereby providing background 3D data. It can be configured to generate 235.
  • the learning means 300 of FIG. 3 identifies parameters related to encoder, decoder, convolution, and batch normalization by using a three-dimensional image (the whole area) as the correct answer. .
  • the learning means 300 infers a three-dimensional image (the entire region) using the identified parameters, encoder, decoder, convolution, and batch normalization.
  • the learning means 300 is configured to skip the encoder and decoder at the rear end of the encoder 310 and decoder 320 of machine learning to input the background 3D data 235.
  • the background 3D shape image 235 may be synthesized with an output feature map output from the decoder 320.
  • introducing the skip function of the architecture greatly improves the accuracy of 3D shape estimation, while the difference between the background result output through the encoder and decoder and the background result directly combined by skipping becomes too large. It was confirmed that a erroneous estimation result (noise) occurred in which the distance fluctuation was too large at the boundary between the target object and the background.
  • a loss function is introduced to obtain the spatial smoothness of the 3D shape image. The loss function may prevent an error from increasing at a boundary portion obtained by combining the 2D image 205 and the 3D shape image 235. Thus, the smoothness of the three-dimensional shape image is improved.
  • the system 400 includes a processor 410, a memory 420, an input/output unit 430, and a bus 440.
  • the processor 410 performs image processing of FIG. 1 and machine learning of FIG. 3.
  • the memory 420 stores data, software, instructions, and parameters used for processing executed by the processor 410.
  • the input/output unit 430 may receive or output data.
  • the input/output unit 430 may output a control signal generated by the processor 410 to components of an electronic device (eg, a heater, a magnetron, and a display of a cooking device).
  • the input/output unit 430 may receive a command signal input through a button or a dial provided in an electronic device.
  • the input/output unit 430 may be embedded in the processor 410.
  • FIG. 5 is a flowchart showing a processing algorithm 500 for realizing the three-dimensional shape estimation apparatus 10 according to the present invention.
  • the processor 410 obtains an RGB image 205 of a target object located in space.
  • the two-dimensional image of the sample object obtained by photographing a sample object having an existing three-dimensional shape, and the three-dimensional shape information of the sample object, RGB through machine learning is performed.
  • a model for estimating a three-dimensional shape is stored.
  • the 3D shape of the target object and/or the position of the target object in space are calculated from the RGB image of the target object using the model for estimating the 3D shape.
  • Electronic devices such as refrigerators or cooking appliances may be shipped after determining an estimated model at the time of manufacture. In this case, the above 520 is made before shipment.
  • the electronic device does not need to be provided with the learning means 300, and a means for storing a model for estimating a three-dimensional shape may be provided in the three-dimensional shape image inference unit 240.
  • a model for estimating a three-dimensional shape extracts a background area other than a target object from an RGB image, and extracts 3 spaces in the extracted background area.
  • Background 3D data is created by adding depth information derived from dimensional information.
  • the model for estimating the 3D shape may be configured to skip the encoder and decoder and input background 3D data at the rear end of the encoder and decoder of machine learning.
  • the above-described 520 may be performed in an initial state after the electronic device is installed.
  • the electronic device includes a photographing means (e.g., camera 110) for photographing a target object (e.g., human) located in space and generating an RGB (red, green, blue) image.
  • the electronic device is based on spatial-specific three-dimensional information obtained by measuring space, a two-dimensional image of a sample object obtained by photographing a sample object having an existing three-dimensional shape with a photographing means, and three-dimensional shape information of the sample object.
  • the electronic device includes a learning means 300 for generating a model for estimating a three-dimensional shape from the RGB image through machine learning.
  • the electronic device also includes means for storing a model for estimating a three-dimensional shape.
  • the electronic device uses a model for estimating a three-dimensional shape, and a means for calculating the three-dimensional shape of the target object and/or the position of the target object in space from the RGB image of the target object (e.g., three-dimensional shape It includes an image inference unit 240.
  • An image database consisting of 12,600 images taken by changing the camera's point of view or the location of food ingredients for 30 kinds of 3D food material data was used.
  • reference thesis-RGB is the case that the algorithm of the reference paper does not use any 3D sensor data
  • the reference paper-100 is the case of using 100 3D sensor data in the algorithm of the reference paper.
  • Thesis-200 is a case where 200 3D sensor data are used in the algorithm of the reference thesis
  • Proposal Method 1 is a case with only background 3D data
  • Proposal Method 2 is a case where background 3D data and skip method are used.
  • Proposed method 3 is a case where background 3D data, skip method, and loss function are used.
  • 6 is a diagram for comparing a reference paper with a result of estimating a 3D shape and a position using an algorithm of the present invention.
  • 610 is the original RGB image
  • 620 is the prediction result by Reference Paper-100
  • 630 is the prediction result by Proposal Method 1
  • 640 is the prediction result by Proposal Method 3
  • 650 is the three-dimensional computer-aided design (CAD). aided design).
  • the foreground ( The three-dimensional shape of food ingredients) can be estimated.
  • the front part of the cucumber is dark and the back part is observed relatively bright.
  • the color CAD image the front part of the cucumber is observed as dark blue, and the back part of the cucumber is observed as light blue.
  • the more white is observed in the outline portion of the target object (food material), the larger the error in the outline portion.
  • Proposed Method 1 According to the comparison between Proposed Method 1 and Proposed Method 3, by introducing a skipping mechanism in the structure of machine learning, the three-dimensional shape of the background can be properly output, and furthermore, the three-dimensional shape of the outline of the food ingredient can be more accurately estimated. have.
  • FIG. 7 is a block diagram illustrating a configuration of a cooking device according to an exemplary embodiment.
  • the cooking appliance 1 includes a camera 110 described in FIG. 1, a processor 410 described in FIG. 4, a memory 420, and an input/output unit 430. It may include.
  • the cooking appliance 1 may include a heating device 20 that heats a target object disposed in the cooking chamber.
  • the heating device 20 may include at least one of a heater or a magnetron.
  • the heater may be disposed above the cooking compartment, and the magnetron may be disposed below the cooking compartment.
  • the background region extraction unit 210 of FIG. 1, the background 3D data generation unit 230, the 3D shape image inference unit 240, and the learning means 300 of FIG. 3 may be implemented by a processor 410.
  • the existing data storage unit 220 of FIG. 1 may be implemented as a memory 420.
  • the processor 410 may control the overall operation of the cooking appliance 1 based on data and programs stored in the memory 420.
  • the cooking appliance 1 may include various components according to embodiments.
  • Each of the various functions of the present invention may be realized by a single element, or may be realized by a plurality of elements. Conversely, a plurality of functions may be realized as a single element. Each function can be realized by hardware, software, or a combination of hardware and software.
  • the flowchart according to the present invention comprises a plurality of blocks. The processing of these blocks may be performed in series or may be performed in parallel. Also, the order of some blocks may be changed.
  • the subject of an apparatus, system, or method according to the invention comprises a computer.
  • this computer executes the program, the main function of the apparatus, system or method in the present invention is realized.
  • a computer has a processor that operates according to a program as its main hardware configuration. As long as the processor can realize its function by executing the program, its kind is irrelevant.
  • the processor is composed of one or a plurality of electronic circuits including a semiconductor integrated circuit (IC) or a large scale integration (LSI).
  • IC or LSI large scale integration
  • the name is changed according to the degree of integration, and thus may be referred to as system LSI, very large scale integration (VLSI), or ultra large scale integration (ULSI).
  • a field programmable gate array (FPGA) programmed after the LSI is manufactured, or a reconfigurable logic device capable of reconfiguring the junction relationship inside the LSI or setting up circuit divisions inside the LSI can also be used for the same purpose.
  • a plurality of electronic circuits may be integrated on one chip or may be provided on a plurality of chips.
  • a plurality of chips may be integrated in one device or may be provided in a plurality of devices.
  • the program is recorded on a non-transitory recording medium such as a computer-readable ROM, an optical disk, or a hard disk drive.
  • the program may be stored in advance in the recording medium or may be supplied to the recording medium through a wide area communication network including the Internet or the like.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Food Science & Technology (AREA)
  • Geometry (AREA)
  • Computer Graphics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

3차원 형상 추정 장치를 포함하는 조리 기기가 개시된다. 일 실시예에 따른 조리 기기는, 대상 물체가 배치되는 조리실; 상기 대상 물체를 가열하는 가열 장치; 상기 조리실 내에 위치하는 상기 대상 물체의 2차원 이미지를 획득하는 카메라; 상기 조리실의 3차원 정보를 저장하고, 상기 대상 물체의 3차원 형상을 추정하는 추정 모델을 저장하는 메모리; 및 상기 대상 물체의 2차원 이미지, 상기 조리실의 3차원 정보 및 상기 추정 모델을 이용하여, 상기 대상 물체와 상기 조리실을 포함하는 전체 영역에 관한 3차원 형상 이미지를 획득하고, 상기 전체 영역에 관한 3차원 형상 이미지로부터 상기 대상 물체의 3차원 형상을 획득하는 프로세서;를 포함할 수 있다.

Description

3차원 형상 추정 장치를 포함하는 조리 기기 및 그 제어 방법
개시된 발명은 3차원 형상 추정 장치, 3차원 형상 추정 장치를 포함하는 조리 기기 및 그 제어 방법에 관한 것이다.
스마트 가전에서 사람이나 물체의 3차원 형상과 3차원 위치를 측정하는 것은 다양한 인식 기능을 제공하는 데 있어 매우 중요해지고 있다. 예를 들면, 특허문헌 1에 개시된 바와 같은 기술이 알려져 있다.
[특허문헌 1] 일본 특개2018-146177호공보
[비특허문헌 1] Ma, F., Karaman, S.: Sparse-to-dense: Depth prediction from sparse depth samples and a single image. In: ICRA, pp. 1-8(2018)
그러나, 3차원 측정 장비는 고가이기 때문에 스마트 가전에 탑재하는 것이 한정적이다. 따라서, 적은 비용으로 3차원 깊이 정보를 측정할 수 있는 새로운 기술이 요구되고 있다.
2대 이상의 카메라를 이용한 3차원 측정 방법은 저가의 3차원 측정 장치에 적용되는 것으로 주목 받아왔다. 그러나, 카메라 사이의 거리가 3차원 측정 성능에 영향을 미치기 때문에, 장치의 사이즈가 커졌고, 카메라들의 위치 관계를 엄밀하게 측정하기 위한 정밀한 교정이 필요하였다. 이러한 접근 방식에서는 요구되는 공간이 커지게 되고, 요구되는 비용도 많게 된다.
한편, 단안 이미지에서의 심도 추정은 비교적 새로운 과제로 최근 활발히 연구되고 있다. 전통적인 접근 방식과는 달리, 이 방식은 최소한의 지각 입력(즉, 단일 RGB 이미지)을 필요로 하며, 입체적이고 기하학적인 계산 문제와는 무관하다. 최근, 심층 아키텍처의 발전에 의해 급속한 발전이 예상되고 있다. 그러나, 이러한 방법은 정확성이나 신뢰성이 부족하여 실용화되지 못하고 있다.
일 실시예에 의하면, 공간 내에 위치하는 대상 물체를 촬영함으로써 RGB(레드, 그린, 블루) 이미지를 생성하는 촬영 수단과; 상기 공간을 측정함으로써 얻어진 상기 공간 고유의 3차원 정보와, 상기 촬영 수단에 의해 기존의 3차원 형상을 갖는 샘플 물체를 촬영함으로써 얻어진 2차원 이미지와, 상기 샘플 물체의 3차원 형상에 기초하여, 기계 학습으로 생성된 RGB 이미지로부터 3차원 형상을 추정하는 모델을 저장하는 수단과; 상기 3차원 형상을 추정하는 모델을 이용하여 상기 대상 물체의 RGB 이미지로부터 상기 대상 물체의 3차원 형상 또는 상기 공간 내에서 상기 대상 물체의 위치를 계산하는 수단; 을 구비하는 3차원 형상 추정 장치가 제공된다.
일 실시예에 의하면, 공간 내에 위치하는 대상 물체를 촬영하여 RGB(레드, 그린, 블루) 이미지를 생성하는 촬영 수단과; 상기 공간을 측정하여 얻어진 상기 공간 고유의 3차원 정보와, 상기 촬영 수단에 의해 기존의 3차원 형상을 갖는 샘플 물체를 촬영하여 얻어진 2차원 이미지와, 상기 샘플 물체의 3차원 형상에 기초하여, 2차원 이미지로부터 3차원 형상을 추정하는 모델을 기계 학습으로 생성하는 학습 수단과; 상기 3차원 형상을 추정하는 모델을 저장하는 수단과; 상기 3차원 형상을 추정하는 모델을 이용하여 상기 대상 물체의 2차원 이미지로부터 상기 대상 물체의 3차원 형상 또는 상기 대상 물체의 상기 공간 내에서의 위치를 계산하는 수단; 을 구비하는 3차원 형상 추정 장치가 제공된다.
일 실시예에 의하면, 공간 내에 위치하는 대상 물체를 촬영하여 RGB(레드, 그린, 블루) 이미지를 생성하고, 상기 공간을 측정하여 얻어진 상기 공간 고유의 3차원 정보와, 기존의 3차원 형상을 갖는 샘플 물체를 촬영하여 얻어진 2차원 이미지와, 상기 샘플 물체의 3차원 형상에 기초하여, 기계 학습으로 생성된 2차원 이미지로부터 3차원 형상을 추정하는 모델을 저장하며, 상기 3차원 형상을 추정하는 모델을 이용하여 상기 대상 물체의 2차원 이미지로부터 상기 대상 물체의 3차원 형상 또는 상기 대상 물체의 상기 공간 내에서의 위치를 계산하는 것을 포함하는 3차원 형상 추정 방법이 제공된다.
일 실시예에 의하면, 공간 내에 위치하는 대상 물체를 촬영하여 RGB(레드, 그린, 블루) 이미지를 생성하고, 상기 공간을 측정하여 얻어진 상기 공간 고유의 3차원 정보와, 기존의 3차원 형상을 갖는 샘플 물체를 촬영하여 얻어진 2차원 이미지와, 상기 샘플 물체의 3차원 형상에 기초하여, 2차원 이미지로부터 3차원 형상을 추정하는 모델을 기계 학습으로 생성하며, 상기 3차원 형상을 추정하는 모델을 저장하고, 상기 3차원 형상을 추정하는 모델을 이용하여 상기 대상 물체의 2차원 이미지로부터 상기 대상 물체의 3차원 형상 또는 상기 대상 물체의 상기 공간 내에서의 위치를 계산하는 것을 포함하는 3차원 형상 추정 방법이 제공된다.
일 실시예에 따른 조리 기기는, 대상 물체가 배치되는 조리실; 상기 대상 물체를 가열하는 가열 장치; 상기 조리실 내에 위치하는 상기 대상 물체의 2차원 이미지를 획득하는 카메라; 상기 조리실의 3차원 정보를 저장하고, 상기 대상 물체의 3차원 형상을 추정하는 추정 모델을 저장하는 메모리; 및 상기 대상 물체의 2차원 이미지, 상기 조리실의 3차원 정보 및 상기 추정 모델을 이용하여, 상기 대상 물체와 상기 조리실을 포함하는 전체 영역에 관한 3차원 형상 이미지를 획득하고, 상기 전체 영역에 관한 3차원 형상 이미지로부터 상기 대상 물체의 3차원 형상을 획득하는 프로세서;를 포함할 수 있다.
일 실시예에 따른 조리 기기의 제어 방법은, 조리 기기의 조리실 내에 위치하는 대상 물체의 2차원 이미지를 획득하고; 상기 대상 물체의 2차원 이미지와, 메모리에 저장된 상기 조리실의 3차원 정보 및 상기 대상 물체의 3차원 형상을 추정하는 추정 모델을 이용하여, 상기 대상 물체와 상기 조리실을 포함하는 전체 영역에 관한 3차원 형상 이미지를 획득하며; 및 상기 전체 영역에 관한 3차원 형상 이미지로부터 상기 대상 물체의 3차원 형상을 획득하는 것;을 포함할 수 있다.
개시된 발명은 단안 카메라를 이용하여 3차원 형상 추정의 정확도를 향상시킬 수 있다.
도 1은 일 실시예에 따른 3차원 형상 추정 장치의 블록도이다.
도 2는 배경 영역의 3차원 형상 이미지를 생성하는 방법을 설명하는 도면이다.
도 3은 학습 수단의 구조를 나타내는 블록도이다.
도 4는 3차원 형상 추정 장치 및 학습 방법을 실현하는 시스템의 블록도이다.
도 5는 일 실시예에 따른 3차원 형상 추정 장치를 실현하는 처리 알고리즘을 나타내는 흐름도이다.
도 6은 참고 논문과 본 발명의 알고리즘에 의한 3차원 형상, 위치 추정 결과를 비교하는 도면이다.
도 7은 일 실시예에 따른 조리 기기의 구성을 나타내는 블록도이다.
본 발명은 상기 과제를 감안하여 스마트 가전과 같이 크기가 정해져 있는 환경 하에서 깊이 추정 문제에 대한 새로운 접근 방식을 제안한다. 이 과제를 해결하는 수단은 구체적으로 이하와 같다.
전제
1. 카메라 시야에 있어서, 3차원 형상을 측정하는 대상물 이외의 배경에 관한 3차원 형상은 이미 알려져 있다.
2. 상기 1과 관련하여, 배경 이미지와 배경의 3차원 형상 정보를 세트로 한 데이터베이스가 존재한다.
제안 방법
1. 카메라가 대상 물체를 측정하는 환경에 있어서, 측정 대상 물체를 제외한 배경 이미지와 배경의 3차원 형상 정보를 세트로 한 데이터베이스를 이용하여, 합성곱 신경망(Convolutional Neural Network, CNN)을 학습한다. 여기서 최적화 함수는 기존 배경의 3차원 위치 정보와의 오차를 최소화한다.
2. 상기 1의 CNN에 있어서, 배경의 3차원 형상을 추정하는 정확도를 향상시키기 위해, 정확한 배경 값이 조밀하게 공급된다.
3. 상기 1의 CNN에 있어서, 배경의 3차원 형상 추정도 가능하게 하는 통합적인 CNN 파라미터의 학습을 수행하기 위해, CNN의 레이어를 스킵하는 구성이 도입된다.
다양한 실시 예에 따르면, 전자 기기의 공간 내 식품의 입출고 관리가 수행될 수 있다. 이러한 전자 기기의 일례로는, 식품 보관 창고로 기능하는 냉장고가 있다. 전자 기기의 구성 요소에는 보관고 및 촬영 장치가 포함된다. 보관고는 물건을 보관하기 위한 공간으로, 기존의 3차원 크기가 정의되어 있다. 촬영 장치는 보관하는 물체를 촬영할 수 있는 1대의 카메라이다. 여기서, 후술하는 바와 같이 추가적인 센서 등을 필요로 하지 않으며, 1대의 카메라만으로 3차원 형상 이미지를 얻을 수 있다.
본 명세서에서 "3차원 형상 이미지"란, 어느 공간(예를 들면, 냉장고 본체의 내부 공간)의 3차원 형상 이미지와, 그 공간 내에 존재하는 대상 물체(예를 들면, 냉장고 내의 식재료)의 3차원 형상 이미지를 총칭한다.
도 1은 본 발명에 따른 3차원 형상 추정 장치(10)의 블록도이다. 3차원(3D) 형상 추정 장치(10)는 2차원(2D) 이미지 촬영부(100) 및 심도 이미지 생성부(200)를 포함한다. 촬영 수단으로서 기능하는 2차원 이미지 촬영부(100)는 공간 내에 위치하는 1대의 카메라(110)를 포함하고, 공간 내의 대상 물체를 촬영함으로써 2차원 이미지(205)을 생성한다. 예를 들면, 2차원 이미지(205)는 RGB(레드, 그린, 블루) 이미지일 수 있고, 임의의 적절한 2차원 이미지일 수도 있다. 즉, 2차원 이미지(205)는 모노크롬 이미지, 2원색 이미지일 수도 있다.
심도 이미지 생성부(200)는 2차원 이미지(205)와 3차원 형상을 추정하는 모델에 기초하여 전체 영역에 관한 3차원 형상 이미지(245)를 생성한다. 다시 말해, 심도 이미지 생성부(200)는 2차원 이미지(205)에 기초하여 깊이 정보를 획득할 수 있다.
구체적으로, 심도 이미지 생성부(200)의 3차원 형상 이미지 추론부(240)는, 공간을 측정하여 얻어진 공간 고유의 3차원 정보, 카메라(110)로 기존의 3차원 형상을 갖는 샘플 물체를 촬영하여 얻어진 2차원 이미지 및 샘플 물체의 3차원 형상에 기초하여, 기계 학습에 의해 생성된 RGB 이미지로부터 3차원 형상을 추정하는 모델(간단하게, "추정 모델"이라고 함)을 저장한다. 또한, 심도 이미지 생성부(200)는 3차원 형상을 추정하는 모델을 이용하여, 대상 물체의 RGB 이미지(205)로부터 대상 물체의 3차원 형상 및/또는 공간 내에서 대상 물체의 위치를 계산한다.
배경 영역 추출부(210)는, 2차원 이미지(205)에서 대상 물체를 제외한 공간(캐비티)인 배경 영역을 추출하고, 배경 영역을 지운(즉, 마스크 처리된) 이미지(215)를 생성하고 출력한다. 기존 데이터 저장부(220)는 전자 기기(예를 들면, 냉장고) 내부의 3차원 형상(사이즈)에 관한 데이터를 기억한다.
배경 3차원 데이터 생성부(230)는 배경 영역 추출부(210)에서 출력된 마스크 처리된 2차원 이미지(215)와, 기존 데이터 저장부(220)에서 출력된 배경 3차원 형상 이미지(225)을 합성함으로써, 마스크된 3차원 형상 이미지(235)을 생성하고 출력한다.
도 2는 배경 3차원 데이터 생성부(230)에 의한 배경 영역의 3차원 형상 이미지(235)의 생성 방법을 나타내는 도면이다. 배경 영역 추출부(210)는 2차원 이미지(205)를 수신하여, 배경이 마스크 처리된 이미지(215)를 생성하고 출력한다. 배경 3차원 데이터 생성부(230)는 마스크 처리된 이미지(215)와 배경의 3차원 형상 이미지(225)를 수신하고, 마스크 처리된 배경의 3차원 형상 이미지(235)를 생성하고 출력한다. 다양한 실시 예에 의하면, 공간의 기존 사이즈를 부분 깊이 이미지(배경 3차원 형상 이미지(225))로 도입함으로써, 단안 카메라에 의한 깊이 추정(3차원 형상 추정)의 정확도를 향상시킬 수 있다.
3차원 형상 이미지 추론부(240)는 2차원 이미지(205)와 마스크된 3차원 형상 이미지(235) 2개를 입력으로 수신하고, 설치된 물체의 심도를 보완하여 전체 영역에 대한 3차원 형상 이미지(245)를 출력한다. 3차원 형상 이미지 추론부(240)는 후술하는 학습 수단(300)과 동일한 신경망 구조를 가져 본질적으로 동일한 것이다.
일 실시 예에 따른 전자 기기는 3차원 형상 추정 장치(10)를 포함한다. 이 경우, 상술한 공간은 전자 기기의 캐비티일 수 있다. 전자 기기가 냉장고인 경우, 이 공간은 냉장실의 공간 또는 냉동고의 공간일 수 있다. 이 경우, 대상 물체(예를 들면, 냉장고 내의 식재료)의 3차원 형상 이미지(245)에 기초하여 전자 기기의 동작 파라미터(예를 들면, 냉장 모드나 설정 온도)를 변경하도록 구성할 수 있다. 예를 들면, 추정된 3차원 형상 이미지(245)가 큰 식재료를 나타낼 때는 냉장고 모드를 일반 냉장에서 급속 냉장으로 변경할 수 있다.
일 실시 예에서는, 3차원 형상 추정 장치(10)를 포함하는 전자 기기는 에어컨일 수 있다. 이 경우, 상술한 공간은 주택의 실내일 수 있다. 이 경우, 대상 물체는 실내에 있는 사람이며, 사람의 실내 위치에 따라 에어컨의 동작 파라미터(예를 들면, 냉방 모드)가 변경될 수 있다. 이 경우, 전자 기기는 공간을 측정하여 얻어진 공간 고유의 3차원 정보, 3차원 형상을 갖는 기존의 샘플 물체를 촬영 수단으로 촬영하여 얻어진 샘플 물체의 2차원 이미지 및 샘플 물체의 3차원 형상 정보에 기초하여, 기계 학습을 통해 RGB 이미지로부터 3차원 형상을 추정하는 모델을 생성하는 학습 수단을 포함할 수 있다. 이러한 학습 수단에 의해, 카메라로 촬영된 실내의 2차원 RGB 이미지로부터 3차원 형상을 추정하는 모델이 기계 학습으로 생성될 수 있다. 이때, 실내의 3차원 사이즈는 한 번만 측정하면 된다. 그리고, 생성된 모델에 기초하여 실내의 사람과 전자 기기의 3차원 위치를 추정할 수 있다. 예를 들면, 에어컨으로부터 사람까지의 거리에 따라 에어컨의 풍량을 변화시킬 수 있다. 일례로, 에어컨으로부터 사람까지의 거리가 큰 경우, 에어컨의 풍량을 평상 시보다 강하게 변화시킬 수 있다.
일 실시예에서는, 3차원 형상 추정 장치(10)를 포함하는 전자 기기는 조리 기기(1)일 수 있다. 조리 기기(1)는 오븐 또는 전자레인지일 수 있다. 이 경우, 조리 기기(1)의 내부 공간은 조리실을 의미할 수 있다. 조리실 내에는 트레이가 배치될 수 있다. 조리 기기(1)는 조리실 내에 배치되는 대상 물체를 가열하는 가열 장치(20)를 포함할 수 있다. 가열 장치(20)는 히터 또는 마그네트론 중 적어도 하나를 포함할 수 있다. 카메라(110)는 조리실의 상부에 마련될 수 있다. 조리 기기(1)는, 카메라(110)에 의해 획득되는 조리실 내에 위치한 대상 물체(식재료)의 2D 이미지와, 메모리(420)에 미리 저장된 조리실의 3차원 정보 및 추정 모델을 이용하여 대상 물체와 조리실을 포함하는 전체 영역에 관한 3차원 형상 이미지를 획득할 수 있다. 또한, 조리 기기(1)는, 조리실 내에 배치된 대상 물체(식재료)의 3차원 형상 이미지에 기초하여 조리 기기(1)의 동작 파라미터(예를 들면, 히터의 온도, 마그네트론의 출력, 가열 시간)를 변경하도록 구성할 수 있다. 예를 들면, 추정된 3차원 형상 이미지(245)가 큰 식재료를 나타내는 경우, 조리 기기(1)는 가열 시간을 증가시킬 수 있다. 이 경우 조리 기기(1)에 포함된 가열 장치(20)의 작동 시간이 증가하게 된다.
본 발명에 의하면 이하 1-3의 추가 접근 방식이 선행 기술 대한 우위성을 제공한다.
1. 기존의 3차원 데이터의 제공 방법
전술한 비특허문헌 1(이하, 참고 논문이라 함)에서는, 기존 정보로서 3차원 센서의 측정 데이터 일부가 무작위로 띄엄띄엄 제공된다. 이에 반해, 본 발명에서는 미리 저장된 3차원 사이즈 데이터(전자 기기를 제조할 때 이용한 CAD 데이터 등)를 대상 물체 이외의 모든 영역(배경 영역)에 대해 기존 정보로서 제공한다. 따라서, 본 발명은 측정 대상 물체와 배경을 분리하는 전처리 기능을 구비하고 있다.
2. 기계 학습의 아키텍처 스킵 기능
도 3은 학습 수단(300)의 구조를 나타낸 블록도이다. 학습 수단(300)은 엔코더(310), 디코더(320), 합성 기능(330), 합성곱 기능(340) 및 뱃치(batch) 정규화 기능(350)을 포함한다.
엔코더(310)는 입력 이미지로부터 특징 추출(이미지의 추상화와 축소화가 동반된다)을 수행하여 심도 특징을 나타내는 이미지를 획득하고, 그 이외의 노이즈가 되는 이미지를 제거하는 정보 압축을 수행한다. 디코더(320)는 특징 추출된(추상화 및 축소화) 이미지에서 결손 부분을 보완하고, 특징 추출된 이미지를 원래의 이미지로 복원하는 정보 복원 동작을 수행한다. 디코더(320)에 의해 복원되고 출력되는 최종 3차원 이미지를 계산하기 위한 특징 이미지 그룹은 출력 특징 맵이라 불린다. 입력 이미지는 엔코더(310) 및 디코더(320)를 경유함으로써 압축 및 복원이 이루어지므로, 그 결과로서 얻어지는 출력 이미지(출력 특징 맵)은 흐릿한 이미지가 된다. 합성곱 기능(340)은 커널이라 불리는 필터를 이용하여 이미지로부터 특징을 추출하는 동작을 수행한다. 뱃치(batch) 정규화 기능(350)은 신경망의 각 레이어의 분포가 적절하도록 레이어 출력을 적절한 값으로 제한시키는 동작을 수행한다.
일 실시 예에 따르면, 엔코더(310)는 대상 물체의 2차원 이미지(205) 및 배경의 3차원 형상 이미지(235)를 수신한다. 학습 수단(300)은, 기계 학습의 입력 정보로서, RGB 이미지에서 대상 물체 이외의 배경 영역을 추출하고, 추출된 배경 영역에 공간의 3차원 정보로부터 도출되는 깊이 정보를 더함으로써, 배경 3차원 데이터(235)를 생성하도록 구성될 수 있다.
구체적으로는, 학습 시에 있어서, 도 3의 학습 수단(300)은 정답인 3차원 이미지(전체 영역)를 이용하여 엔코더, 디코더, 합성곱, 및 뱃치(batch) 정규화에 관련되는 파라미터들을 식별한다. 추론 시에 있어서, 학습 수단(300)은 식별된 파라미터들, 엔코더, 디코더, 합성곱, 및 뱃치(batch) 정규화를 이용하여 3차원 이미지(전체 영역)를 추론한다.
그런데, 이미지를 입력해서 별도의 이미지를 출력하도록 한 딥 신경망에서는, 아키텍처 중에 엔코더와 디코더를 경유하면서 이미지가 흐릿해져 가는 문제가 있다. 따라서, 출력 결과의 3차원 형상 이미지에서 물체의 윤곽 부근의 3차원 형상이 모호해져 정확도가 떨어지는 문제가 있었다. 이 정확도 저하의 문제를 해결하기 위해, 원래의 입력 이미지에 대해 엔코더와 디코더를 스킵하고, 디코더로부터 출력 특징 맵에 직접 연결되는 경로를 제공함으로써, 물체의 윤곽 부근이나 배경의 3차원 형상이 모호해지는 점을 개선하고 있다. 구체적으로, 학습 수단(300)은 기계 학습의 엔코더(310) 및 디코더(320)의 후단에서 엔코더 및 디코더를 스킵하여 배경 3차원 데이터(235)를 입력하도록 구성된다. 다시 말해, 배경 3D 형상 이미지(235)는 디코더(320)로부터 출력되는 출력 특징 맵과 합성될 수 있다.
3. 손실(Loss) 함수의 도입
예비 실험에서, 아키텍처의 스킵 기능을 도입하면 3차원 형상 추정의 정확도를 큰 폭으로 향상시키는 한편, 엔코더와 디코더를 통해 출력되는 배경 결과와 스킵해서 직접 결합되는 배경 결과와의 차이가 너무 커지기 때문에, 대상 물체와 배경의 경계에서 거리의 변동이 너무 큰 오추정 결과(노이즈)가 발생하는 것을 확인했다. 이러한 노이즈를 줄이기 위해, 3차원 형상 이미지의 공간적인 매끄러움을 획득하기 위한 손실 함수가 도입된다. 손실 함수는 2차원 이미지(205) 및 3차원 형상 이미지(235)를 합성한 경계 부분에서 오차가 증가하는 것을 방지할 수 있다. 따라서, 3차원 형상 이미지의 매끄러움이 개선된다.
하드웨어
도 4는 3차원 형상 추정 장치(10) 및 학습 수단(300)을 실현하는 시스템(400)의 블록도이다. 시스템(400)은 프로세서(410), 메모리(420), 입출력부(430)및 버스(440)를 포함한다. 프로세서(410)는 도 1의 이미지 처리 및 도 3의 기계 학습을 실행한다. 메모리(420)는 프로세서(410)에 의해 실행되는 처리에 이용되는 데이터, 소프트웨어, 명령 및 파라미터를 저장한다. 입출력부(430)는 데이터를 입력 받거나 출력할 수 있다. 또한, 입출력부(430)는 프로세서(410)에 의해 생성되는 제어 신호를 전자 기기의 구성들(예를 들면, 조리 기기의 히터, 마그네트론, 디스플레이)로 출력할 수 있다. 입출력부(430)는 전자 기기에 마련된 버튼, 다이얼 등을 통해 입력되는 명령 신호를 수신할 수도 있다. 입출력부(430)는 프로세서(410)에 내장되어 있을 수 있다.
소프트웨어
도 5는 본 발명에 따른 3차원 형상 추정 장치(10)를 실현하는 처리 알고리즘(500)을 나타내는 흐름도이다. 510에서, 프로세서(410)는 공간 내에 위치하는 대상 물체의 RGB 이미지(205)를 획득한다. 520에서, 공간을 측정하여 얻어진 공간의 3차원 정보, 기존의 3차원 형상을 갖는 샘플 물체를 촬영하여 얻어진 샘플 물체의 2차원 이미지 및 샘플 물체의 3차원 형상 정보에 기초하여, 기계 학습을 통해 RGB 이미지로부터 3차원 형상을 추정하는 모델을 생성한다. 530에서, 3차원 형상을 추정하는 모델을 저장한다. 540에서, 3차원 형상을 추정하는 모델을 이용하여 대상 물체의 RGB 이미지로부터 대상 물체의 3차원 형상 및/또는 공간 내에서 대상 물체의 위치를 계산한다.
냉장고 또는 조리 기기와 같은 전자 기기는 제조 시에 추정 모델을 확정한 후 출하될 수 있다. 이 경우, 상기한 520은 출하 전에 이루어진다. 전자 기기는 학습 수단(300)을 제공받을 필요가 없고, 3차원 형상 이미지 추론부(240) 내에 3차원 형상을 추정하는 모델을 저장하는 수단이 마련될 수 있다.
일 실시 예에 따르면, 학습 수단을 가지고 있지 않은 전자 기기(1)의 경우, 3차원 형상을 추정하는 모델은, RGB 이미지에서 대상 물체 이외의 배경 영역을 추출하고, 추출된 배경 영역에 공간의 3차원 정보로부터 도출되는 깊이 정보를 추가함으로써 배경 3D 데이터를 생성한다. 또한, 3차원 형상을 추정하는 모델은, 기계 학습의 엔코더 및 디코더의 후단에서, 엔코더 및 디코더를 스킵하고 배경 3D 데이터를 입력하도록 구성될 수 있다.
대조적으로, 에어컨과 같은 전자 기기가 실제로 실내에 설치된 후 실내 공간 고유의 3차원 정보에 기초하여 기계 학습을 하는 경우, 상기한 520은 전자 기기가 설치된 후에 초기 상태에서 이루어질 수 있다. 이러한 경우, 전자 기기는, 공간 내에 위치하는 대상 물체(예를 들면, 인간)를 촬영하여 RGB(레드, 그린, 블루) 이미지를 생성하는 촬영 수단(예를 들면, 카메라(110))을 포함한다. 또한, 전자 기기는, 공간을 측정함으로써 얻어진 공간 고유의 3차원 정보, 기존의 3차원 형상을 갖는 샘플 물체를 촬영 수단으로 촬영함으로써 얻어진 샘플 물체의 2차원 이미지 및 샘플 물체의 3차원 형상 정보에 기초하여, 기계 학습을 통해 RGB 이미지로부터 3차원 형상을 추정하는 모델을 생성하는 학습 수단(300)을 포함한다. 또한, 전자 기기는 3차원 형상을 추정하는 모델을 저장하는 수단도 포함한다. 또한, 전자 기기는 3차원 형상을 추정하는 모델을 이용하여, 대상 물체의 RGB 이미지로부터 대상 물체의 3차원 형상 및/또는 공간 내에서 대상 물체의 위치를 계산하는 수단(예를 들며, 3차원 형상 이미지 추론부(240))을 포함한다.
실시예의 정확도 검증
비교에 사용된 데이터 세트에 대한 상세
30종의 3차원 식재료 데이터에 대한 카메라 시점이나 식재료의 위치를 변경하여 촬영한 12600장으로 이루어진 이미지 데이터베이스를 사용했다.
방법 오차(작을수록 바람직) 정확도(클수록 바람직)
REL RMSE δ
참고논문-RGB 0.126 0.071 0.790
참고논문-100(620) 0.106 0.068 0.860
참고논문-200 0.133 0.073 0.787
제안방법1(630) 0.094 0.057 0.898
제안방법2 0.067 0.048 0.964
제안방법3(640) 0.070 0.043 0.977
표 1에서, 참고 논문-RGB은 참고 논문의 알고리즘에서 3차원 센서의 데이터를 일절 사용하지 않는 경우이고, 참고 논문-100은 참고 논문의 알고리즘에서 3차원 센서 데이터를 100개 사용하는 경우이며, 참고 논문-200은 참고 논문의 알고리즘에서 3차원 센서 데이터를 200개 사용하는 경우이고, 제안방법 1은 배경 3차원 데이터만 있는 경우이며, 제안방법 2는 배경 3차원 데이터와 스킵 방식이 이용된 경우이고, 제안방법 3은 배경 3차원 데이터와 스킵 방식과 손실 함수가 이용된 경우이다.
도 6은 참고 논문과 본 발명의 알고리즘에 의한 3차원 형상, 위치 추정 결과를 비교하는 도면이다. 610은 원래의 RGB 이미지며, 620은 참고 논문-100에 의한 예측 결과이고, 630는 제안방법 1에 의한 예측 결과이며, 640은 제안방법 3에 의한 예측 결과이고, 650은 3차원 CAD(computer-aided design)에 의한 정확한 이미지다.
표 1 및 도 6에서, 참고 논문-100과 제안방법 1의 비교에 의하면, 배경에 해당하는 기존의 3차원 형상 데이터를 제공함으로써, 무작위로 3차원 센서의 값을 부여하는 방법보다 매우 정확하게 전경(식재료)의 3차원 형상이 추정될 수 있다. 여기서, 650의 3차원 CAD 이미지와 같이, 오이의 앞부분은 어둡고, 뒷부분은 상대적으로 밝게 관측된다. 컬러 CAD 이미지에서는 오이의 앞부분이 진한 파랑으로 관측되고, 오이의 뒷부분이 연한 파랑으로 관측된다. 한편, 대상 물체(식재료)의 윤곽 부분에서 흰색이 많이 관측될수록 윤곽 부분의 오차가 큰 것이 된다.
제안방법 1과 제안방법 3의 비교에 의하면, 기계 학습의 구조에 스킵하는 메카니즘을 도입함으로써 배경의 3차원 형상이 제대로 출력될 수 있으며, 나아가 식재료의 윤곽 부분의 3차원 형상이 보다 정확하게 추정될 수 있다.
도 7은 일 실시예에 따른 조리 기기의 구성을 나타내는 블록도이다.
도 7을 참조하면, 조리 기기(1)는 도 1에서 설명된 카메라(110)와, 도 4에서 설명된 프로세서(410), 메모리(420) 및 입출력부(430)로 구성되는 시스템(400)을 포함할 수 있다. 또한, 조리 기기(1)는 조리실 내에 배치되는 대상 물체를 가열하는 가열 장치(20)를 포함할 수 있다. 가열 장치(20)는 히터 또는 마그네트론 중 적어도 하나를 포함할 수 있다. 예를 들면, 히터는 조리실의 상부에 배치될 수 있고, 마그네트론은 조리실의 하부에 배치될 수 있다. 도 1의 배경영역추출부(210), 배경 3D 데이터 생성부(230), 3D 형상 이미지 추론부(240) 및 도 3의 학습 수단(300)은 프로세서(410)로 구현될 수 있다. 도 1의 기존 데이터 저장부(220)는 메모리(420)로 구현될 수 있다. 프로세서(410)는 메모리(420)에 저장된 데이터 및 프로그램에 기초하여 조리 기기(1)의 전반적인 동작을 제어할 수 있다. 이외에도, 조리 기기(1)는 실시예에 따라 다양한 구성 요소들을 포함할 수 있다.
본 발명의 다양한 기능은 각각 단일 요소로 실현될 수도 있으며, 또한 복수의 요소로 실현될 수도 있다. 반대로, 복수의 기능이 단일 요소로 실현될 수도 있다. 각각의 기능은 하드웨어, 소프트웨어, 또는 하드웨어 및 소프트웨어의 조합에 의해 실현될 수 있다. 본 발명에 따른 흐름도는 복수의 블록을 포함한다. 이러한 블록의 처리는 직렬로 이루어지거나 병렬로 이루어질 수도 있다. 또한, 일부 블록의 순서는 바뀔 수 있다.
본 발명에 따른 장치, 시스템, 또는 방법의 주체는 컴퓨터를 구비하고 있다. 이 컴퓨터가 프로그램을 실행함으로써, 본 발명에서의 장치, 시스템 또는 방법의 주체 기능이 실현된다. 컴퓨터는 프로그램에 따라 동작하는 프로세서를 주요 하드웨어 구성으로서 구비한다. 프로세서는 프로그램을 실행함으로써 기능을 실현할 수 있다면, 그 종류는 관계 없다. 프로세서는 반도체 집적 회로(IC) 또는 LSI(large scale integration)를 포함하는 하나 또는 복수의 전자 회로로 구성된다. 여기에서는, IC 나 LSI라고 부르고 있지만, 집적의 정도에 따라 명칭이 바뀌어 시스템 LSI, VLSI(very large scale integration), 또는 ULSI(ultra large scale integration)라는 지칭될 수도 있다. LSI의 제조 후에 프로그램 되는 필드 프로그래머블 게이트 어레이(FPGA), 또는 LSI 내부의 접합 관계의 재구성 또는 LSI 내부의 회로 구획의 셋업을 할 수 있는 재구성 가능한 논리 디바이스도 동일한 목적으로 사용할 수 있다. 복수의 전자 회로는 하나의 칩에 집적 되어 있거나, 복수의 칩에 마련될 수도 있다. 복수의 칩은 하나의 장치에 집약되거나 복수의 장치에 구비되어 있을 수도 있다. 프로그램은 컴퓨터가 읽을 수 있는 ROM, 광디스크, 하드 디스크 드라이브 등의 비일시적 기록 매체에 기록된다. 프로그램은 기록 매체에 미리 저장되어 있거나 인터넷 등을 포함하는 광역 통신망을 통해 기록 매체에 공급될 수도 있다.
위에서 설명한 것에는 본 발명의 다양한 예들이 포함된다. 본 발명을 기재하는 목적에서는 요소나 순서가 고려되는 가능한 모든 조합을 기재하는 것은 당연히 불가능하지만, 당업자라면 본 발명의 많은 추가적인 조합 및 순열이 가능하다는 것은 알 수 있을 것이다. 따라서, 본 발명은 특허 청구 범위의 사상 및 범위에 들어가는 이러한 수정, 변경 및 변형 예를 모두 포함하도록 의도된다.

Claims (16)

  1. 대상 물체가 배치되는 조리실;
    상기 대상 물체를 가열하는 가열 장치;
    상기 조리실 내에 위치하는 상기 대상 물체의 2차원 이미지를 획득하는 카메라;
    상기 조리실의 3차원 정보를 저장하고, 상기 대상 물체의 3차원 형상을 추정하는 추정 모델을 저장하는 메모리; 및
    상기 대상 물체의 2차원 이미지, 상기 조리실의 3차원 정보 및 상기 추정 모델을 이용하여, 상기 대상 물체와 상기 조리실을 포함하는 전체 영역에 관한 3차원 형상 이미지를 획득하고, 상기 3차원 형상 이미지로부터 상기 대상 물체의 3차원 형상을 획득하는 프로세서;를 포함하는 조리 기기.
  2. 제 1항에 있어서,
    상기 프로세서는,
    상기 획득된 대상 물체의 3차원 형상에 기초하여 상기 조리 기기의 동작 파라미터를 변경하는 조리 기기.
  3. 제 1항에 있어서,
    상기 프로세서는,
    상기 대상 물체의 2차원 이미지에서 배경 영역을 추출하고, 상기 추출된 배경 영역과 상기 조리실의 3차원 정보를 합성하여 배경 3D 형상 이미지를 획득하며, 상기 대상 물체의 2차원 이미지와 상기 배경 3D 형상 이미지를 합성하여 상기 전체 영역에 관한 3차원 형상 이미지를 획득하는 조리 기기.
  4. 제3항에 있어서,
    상기 프로세서는,
    상기 조리실의 3차원 정보에 포함된 깊이 정보를 상기 배경 영역에 추가하여 상기 배경 3D 형상 이미지를 획득하는 조리 기기.
  5. 제3항에 있어서,
    상기 프로세서는,
    상기 배경 3D 형상 이미지를 상기 추정 모델에 포함되는 아키텍처들 중 디코더로부터 출력되는 출력 특징 맵과 합성하는 조리 기기.
  6. 제3항에 있어서,
    상기 프로세서는,
    상기 전체 영역에 관한 3차원 형상 이미지에 손실 함수를 적용하여, 상기 대상 물체의 2차원 이미지와 상기 배경 3D 형상 이미지의 경계에서 오차를 감소시키는 조리 기기.
  7. 제1항에 있어서,
    상기 프로세서는,
    상기 대상 물체의 2차원 이미지에서 배경 영역을 제거한 마스크 이미지를 획득하고, 상기 마스크 이미지와 상기 조리실의 3차원 정보를 합성하여 상기 대상 물체가 마스크 처리된 배경 3D 형상 이미지를 획득하며, 상기 대상 물체의 2차원 이미지와 상기 배경 3D 형상 이미지를 합성하여 상기 전체 영역에 관한 3차원 형상 이미지를 획득하는 조리 기기.
  8. 제1항에 있어서,
    상기 메모리는,
    샘플 물체의 2차원 이미지 및 상기 샘플 물체의 3차원 형상 정보를 더 저장하고,
    상기 프로세서는,
    상기 조리실의 3차원 정보, 상기 샘플 물체의 2차원 이미지 및 상기 샘플 물체의 3차원 형상 정보에 기초하여, 기계 학습을 통해 상기 추정 모델을 생성하는 조리 기기.
  9. 조리 기기의 조리실 내에 위치하는 대상 물체의 2차원 이미지를 획득하고;
    상기 대상 물체의 2차원 이미지와, 메모리에 저장된 상기 조리실의 3차원 정보 및 상기 대상 물체의 3차원 형상을 추정하는 추정 모델을 이용하여, 상기 대상 물체와 상기 조리실을 포함하는 전체 영역에 관한 3차원 형상 이미지를 획득하고; 및
    상기 전체 영역에 관한 3차원 형상 이미지로부터 상기 대상 물체의 3차원 형상을 획득하는 것;을 포함하는 조리 기기의 제어 방법.
  10. 제9항에 있어서,
    상기 획득된 대상 물체의 3차원 형상에 기초하여 상기 조리 기기의 동작 파라미터를 변경하는 것;을 더 포함하는 조리 기기의 제어 방법.
  11. 제9항에 있어서,
    상기 전체 영역에 관한 3차원 형상 이미지를 획득하는 것은,
    상기 대상 물체의 2차원 이미지에서 배경 영역을 추출하고;
    상기 추출된 배경 영역과 상기 조리실의 3차원 정보를 합성하여 배경 3D 형상 이미지를 획득하며; 및
    상기 대상 물체의 2차원 이미지와 상기 배경 3D 형상 이미지를 합성하는 것;을 포함하는 조리 기기의 제어 방법.
  12. 제11항에 있어서,
    상기 배경 3D 형상 이미지를 획득하는 것은,
    상기 조리실의 3차원 정보에 포함된 깊이 정보를 상기 배경 영역에 추가하는 것;을 포함하는 조리 기기의 제어 방법.
  13. 제11항에 있어서,
    상기 대상 물체의 2차원 이미지와 상기 배경 3D 형상 이미지를 합성하는 것은,
    상기 배경 3D 형상 이미지를 상기 추정 모델에 포함되는 아키텍처들 중 디코더로부터 출력되는 출력 특징 맵과 합성하는 것;을 포함하는 조리 기기의 제어 방법.
  14. 제11항에 있어서,
    상기 전체 영역에 관한 3차원 형상 이미지를 획득하는 것은,
    손실 함수를 적용하여 상기 대상 물체의 2차원 이미지와 상기 배경 3D 형상 이미지의 경계에서 오차를 감소시키는 것;을 포함하는 조리 기기의 제어 방법.
  15. 제9항에 있어서,
    상기 전체 영역에 관한 3차원 형상 이미지를 획득하는 것은,
    상기 대상 물체의 2차원 이미지에서 배경 영역을 제거한 마스크 이미지를 획득하고;
    상기 마스크 이미지와 상기 조리실의 3차원 정보를 합성하여 상기 대상 물체가 마스크 처리된 배경 3D 형상 이미지를 획득하며; 및
    상기 대상 물체의 2차원 이미지와 상기 배경 3D 형상 이미지를 합성하여 상기 전체 영역에 관한 3차원 형상 이미지를 획득하는 것;을 포함하는 조리 기기의 제어 방법.
  16. 제9항에 있어서,
    상기 메모리에 저장된 상기 조리실의 3차원 정보, 샘플 물체의 2차원 이미지 및 상기 샘플 물체의 3차원 형상 정보에 기초하여, 기계 학습을 통해 상기 추정 모델을 생성하는 것;을 더 포함하는 조리 기기의 제어 방법.
PCT/KR2020/010882 2019-10-08 2020-08-14 3차원 형상 추정 장치를 포함하는 조리 기기 및 그 제어 방법 WO2021071081A1 (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2019-184903 2019-10-08
JP2019184903A JP2021060294A (ja) 2019-10-08 2019-10-08 3次元形状推定装置及び3次元形状推定方法
KR1020200085273A KR20210042006A (ko) 2019-10-08 2020-07-10 3차원 형상 추정 장치를 포함하는 조리 기기 및 그 제어 방법
KR10-2020-0085273 2020-07-10

Publications (1)

Publication Number Publication Date
WO2021071081A1 true WO2021071081A1 (ko) 2021-04-15

Family

ID=75438253

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2020/010882 WO2021071081A1 (ko) 2019-10-08 2020-08-14 3차원 형상 추정 장치를 포함하는 조리 기기 및 그 제어 방법

Country Status (1)

Country Link
WO (1) WO2021071081A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4115779A1 (de) * 2021-07-06 2023-01-11 Vorwerk & Co. Interholding GmbH Haushaltsgerät mit multifunktionaler anzeige

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003232622A (ja) * 2002-02-08 2003-08-22 Olympus Optical Co Ltd 立体情報取得装置及び立体情報取得方法並びに立体情報取得プログラム
JP2006145142A (ja) * 2004-11-22 2006-06-08 Fuji Photo Film Co Ltd 電子レンジ
KR20150018759A (ko) * 2014-12-29 2015-02-24 재단법인 아산사회복지재단 음식사진을 이용한 칼로리 자동 계산 방법 및 이를 이용한 식습관 관리 시스템
KR101495299B1 (ko) * 2013-09-24 2015-02-24 한국과학기술원 3차원 형상 획득 장치 및 그 획득 방법
KR20160020690A (ko) * 2014-08-14 2016-02-24 이명익 2차원 이미지 변환을 통한 3차원 프린팅 파일 생성 장치 및 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003232622A (ja) * 2002-02-08 2003-08-22 Olympus Optical Co Ltd 立体情報取得装置及び立体情報取得方法並びに立体情報取得プログラム
JP2006145142A (ja) * 2004-11-22 2006-06-08 Fuji Photo Film Co Ltd 電子レンジ
KR101495299B1 (ko) * 2013-09-24 2015-02-24 한국과학기술원 3차원 형상 획득 장치 및 그 획득 방법
KR20160020690A (ko) * 2014-08-14 2016-02-24 이명익 2차원 이미지 변환을 통한 3차원 프린팅 파일 생성 장치 및 방법
KR20150018759A (ko) * 2014-12-29 2015-02-24 재단법인 아산사회복지재단 음식사진을 이용한 칼로리 자동 계산 방법 및 이를 이용한 식습관 관리 시스템

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4115779A1 (de) * 2021-07-06 2023-01-11 Vorwerk & Co. Interholding GmbH Haushaltsgerät mit multifunktionaler anzeige

Similar Documents

Publication Publication Date Title
RU2426172C1 (ru) Способ и система выделения данных об изображении объекта переднего плана на основе данных о цвете и глубине
US10192313B2 (en) Networked capture and 3D display of localized, segmented images
Alexiou et al. Towards a point cloud structural similarity metric
Wei et al. Single image reflection removal exploiting misaligned training data and network enhancements
JP7297081B2 (ja) 画像分類方法、画像分類装置、医療用電子機器、画像分類機器、及びコンピュータプログラム
JP4451307B2 (ja) シーン中のオブジェクトを分類する方法
CN110998659B (zh) 图像处理系统、图像处理方法、及程序
JP6489551B2 (ja) 画像のシーケンスにおいて前景を背景から分離する方法およびシステム
JP7143225B2 (ja) 三次元再構成方法及び三次元再構成装置
CN107079143B (zh) 用于差异图像比较的场景曝光自动补偿
JP4238586B2 (ja) キャリブレーション処理装置、およびキャリブレーション処理方法、並びにコンピュータ・プログラム
Fernandez-Sanchez et al. Background subtraction model based on color and depth cues
JP4313758B2 (ja) ステレオ画像中のエッジを結び付けてチェインにする方法
CN106664351A (zh) 使用块匹配的镜头阴影颜色校正的方法和系统
US9406140B2 (en) Method and apparatus for generating depth information
CN111630524B (zh) 测量物体参数的方法及装置
CN105959661B (zh) 一种色温估计方法及电子设备
WO2021071081A1 (ko) 3차원 형상 추정 장치를 포함하는 조리 기기 및 그 제어 방법
EP3998582A1 (en) Three-dimensional model generation method and three-dimensional model generation device
CN111667459A (zh) 一种基于3d可变卷积和时序特征融合的医学征象检测方法、系统、终端及存储介质
CN107148237A (zh) 信息处理装置、信息处理方法和程序
CN109982059A (zh) 自动白平衡中的照度色度的估计
US8437545B1 (en) System and method for digital image signal compression using intrinsic images
KR20210042006A (ko) 3차원 형상 추정 장치를 포함하는 조리 기기 및 그 제어 방법
Li et al. Deep hyperspectral-depth reconstruction using single color-dot projection

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20873702

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20873702

Country of ref document: EP

Kind code of ref document: A1