WO2022124673A1 - Device and method for measuring volume of object in receptacle on basis of camera image using machine learning model - Google Patents

Device and method for measuring volume of object in receptacle on basis of camera image using machine learning model Download PDF

Info

Publication number
WO2022124673A1
WO2022124673A1 PCT/KR2021/017807 KR2021017807W WO2022124673A1 WO 2022124673 A1 WO2022124673 A1 WO 2022124673A1 KR 2021017807 W KR2021017807 W KR 2021017807W WO 2022124673 A1 WO2022124673 A1 WO 2022124673A1
Authority
WO
WIPO (PCT)
Prior art keywords
area
container
standard container
input image
volume measurement
Prior art date
Application number
PCT/KR2021/017807
Other languages
French (fr)
Korean (ko)
Inventor
김영호
이동엽
Original Assignee
주식회사 제로클래스랩
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 제로클래스랩 filed Critical 주식회사 제로클래스랩
Publication of WO2022124673A1 publication Critical patent/WO2022124673A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • G06T7/62Analysis of geometric attributes of area, perimeter, diameter or volume
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06KGRAPHICAL DATA READING; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
    • G06K19/00Record carriers for use with machines and with at least a part designed to carry digital markings
    • G06K19/06Record carriers for use with machines and with at least a part designed to carry digital markings characterised by the kind of the digital marking, e.g. shape, nature, code
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Definitions

  • Embodiments of the present disclosure relate to an apparatus and method for measuring the volume of an object in a container based on a captured image using a machine learning model.
  • Embodiments of the present disclosure provide a method, an apparatus, and a computer program for measuring the volume of an object using image data.
  • receiving an input image detecting a standard container area corresponding to a predefined standard container from the input image; recognizing a container wall area corresponding to the wall surface of the standard container and an object area corresponding to an object contained in the standard container using a first machine learning model from the input image; calculating a pixel ratio of the object area among pixels of the entire area including the container wall area and the object area; and generating a volume measurement value of the object based on the pixel ratio.
  • the method for measuring object volume further includes removing a background area excluding the standard container area from the input image, and recognizing the container wall area and the object area. is performed using the input image from which the background area has been removed.
  • removing the background region may include defining the standard container region as a region of interest; defining a region excluding the region of interest from the input image as the background region; and generating a first output image in which the background area is displayed as a single pixel value.
  • the first machine learning model corresponds to a segmentic segmentation model
  • the step of recognizing the container wall area and the object area includes the container wall area using the segmentic segmentation model. and recognizing the object region, wherein the object volume measurement method further includes converting the container wall region into a first pixel value and converting the object region into a second pixel value.
  • the standard container is a standard container in the form of a polyhedron partially open
  • the calculating of the pixel ratio includes recognizing a plurality of wall areas corresponding to each wall surface of the standard container. to do; dividing the object area into a plurality of sub object areas respectively corresponding to the plurality of wall areas; calculating a weighted object area pixel count by applying a weight corresponding to each wall surface to the pixel number of each of the plurality of sub object areas; and calculating the pixel ratio by using the number of pixels in the weighted object area and the number of pixels in the container wall area.
  • the standard container is a rectangular standard container with an open top and front surfaces
  • the input image is an image obtained by photographing the standard container with an oblique line from the open top and front surfaces.
  • the weight of each wall surface of the rectangular parallelepiped container may increase in the order of both sides, the front, and the lower surface of the rectangular standard container.
  • the volume measurement value of the object may be defined as a percentage of the total volume of the standard container.
  • the input image is a moving picture including a plurality of frames
  • the method for measuring the volume of an object further includes extracting a frame in which the standard container area is detected, the standard The detecting of the container region may include using the extracted frame as the input image.
  • an input interface for receiving an input image; a memory storing at least one instruction; at least one processor executing the at least one instruction; and an output interface, wherein the at least one processor detects a standard container region corresponding to a predefined standard container from the input image by executing the at least one instruction, and performs first machine learning from the input image.
  • the container wall area corresponding to the wall surface of the standard container and the object area corresponding to the object contained in the standard container are recognized using the model, and among the pixels of the entire area including the container wall area and the object area, the An object volume measurement apparatus is provided, which calculates a pixel ratio of an object area, generates a volume measurement value of the object based on the pixel ratio, and outputs the object volume measurement value through the output interface.
  • the method for measuring object volume includes a predefined method from the input image. detecting a standard container area corresponding to a standard container; recognizing a container wall area corresponding to the wall surface of the standard container and an object area corresponding to an object contained in the standard container using a first machine learning model from the input image; calculating a pixel ratio of the object area among pixels of the entire area including the container wall area and the object area; and generating a volume measurement value of the object based on the pixel ratio.
  • FIG. 1 is a diagram illustrating a system for measuring object volume according to an embodiment of the present disclosure.
  • FIG. 2 is a view showing the structure of an object volume measurement apparatus according to an embodiment of the present disclosure.
  • FIG. 3 is a flowchart illustrating a method for measuring the volume of an object according to an embodiment of the present disclosure.
  • FIG. 4 is a view showing a standard container according to an embodiment of the present disclosure.
  • FIG. 5 is a diagram in which a visual tag is disposed according to an embodiment of the present disclosure.
  • FIG. 6 is a diagram illustrating a visual tag according to an embodiment of the present disclosure.
  • FIG. 7 is a diagram illustrating a flowchart of a method for measuring the volume of an object according to an embodiment of the present disclosure.
  • FIG. 8 is a diagram illustrating a process of detecting a standard container area from a black-and-white scale image, according to an embodiment of the present disclosure.
  • FIG. 9 is a diagram illustrating a background removal process according to an embodiment of the present disclosure.
  • FIG. 10 is a diagram illustrating a process of generating a first output image from a background removal image according to an embodiment of the present disclosure.
  • FIG. 11 is a diagram illustrating a process of calculating the volume of an object contained in a standard container, according to an embodiment of the present disclosure.
  • FIG. 12 is a diagram illustrating an output of a first machine learning model according to an embodiment of the present disclosure.
  • FIG. 13 is a diagram illustrating a structure of a processor according to another embodiment of the present disclosure.
  • FIG. 14 is a diagram illustrating the structure of a CNN model according to an embodiment of the present disclosure.
  • 15 is a diagram illustrating image data and a first output image of a standard container area according to an embodiment of the present disclosure.
  • FIG. 1 is a diagram illustrating a system for measuring object volume according to an embodiment of the present disclosure.
  • the object volume measurement system 10 uses the camera 120 to photograph the object 112 contained in the standard container 110 , and from the captured input image 110 , the object volume measurement device Measure the object volume at (100).
  • the object volume measurement system 10 may be used in a distribution warehouse, a factory, and the like. For example, the object 112 contained in the standard container 110 is placed on a shelf of the warehouse, and the object volume measurement system 10 takes the standard containers 110 placed while moving the camera 120, It is possible to measure the volume of the object 112 contained in each standard container 110 from the input image.
  • the camera 120 is mounted on a predetermined moving means, for example, the camera 120 and the object volume measuring device 100 are implemented in the form of a movable robot, and while the robot moves in a predetermined path in the warehouse It is possible to measure the volume of the object in each standard container (110).
  • the object 112 is contained in a predetermined standard container 110 .
  • the standard container 110 is a container having a predefined shape, size, and color.
  • the standard container 110 may be defined as one or more types.
  • the object 112 is an object subject to volume measurement.
  • the object volume means the volume occupied by the object 112 contained in one standard container 110 .
  • the camera 120 photographs the object 112 contained in the standard container 110 .
  • the camera 120 includes a lens, a shutter, and an image pickup device.
  • the camera 120 captures an image, and outputs the captured input image to the object volume measurement apparatus 100 .
  • the object volume measuring apparatus 100 may be implemented in the form of an electronic device including a processor and a memory, for example, in the form of a smart phone, a tablet PC, a notebook computer, or a wearable device. According to one embodiment, the object volume measuring apparatus 100 may be implemented in the form of a cloud server.
  • the object volume measuring apparatus 100 may be implemented as one device including the camera 120 .
  • the object volume measuring apparatus 100 may receive an input image from the external camera 120 .
  • the object volume measuring apparatus 100 may receive an input image through a communication unit or a predetermined input interface.
  • the camera 120 may correspond to a closed circuit television (CCTV) camera.
  • CCTV closed circuit television
  • FIG. 2 is a view showing the structure of an object volume measurement apparatus according to an embodiment of the present disclosure.
  • the object volume measurement apparatus 100 includes an input interface 210 , a processor 220 , an output interface 230 , and a memory 240 .
  • the input interface 210 receives an input image photographed from at least one camera for photographing a standard container.
  • the object volume measuring apparatus 100 may include a camera in the object volume measuring apparatus 100 .
  • the input interface 210 receives an input image from a camera built in the object volume measurement apparatus 100 .
  • the object volume measurement apparatus 100 may be connected to a camera disposed outside the object volume measurement apparatus 100 to receive an input image through the input interface 210 .
  • the camera photographs the standard container and transmits the photographed image data to the object volume measurement apparatus 100 .
  • the camera is placed with a Field of View (FOV) set to photograph the standard container.
  • the camera may correspond to an existing CCTV camera.
  • FOV Field of View
  • the input interface 210 may correspond to an input device of a predetermined standard for receiving image data from a camera or a communication unit.
  • the input interface 210 transmits the input image data to the processor 220 or the memory 240 .
  • the input image data corresponds to the input image.
  • the processor 220 may read the input image stored in the memory 240 .
  • the processor 220 controls the overall operation of the object volume measuring apparatus 100 .
  • the processor 220 may be implemented with one or more processors.
  • the processor 220 may execute an instruction or a command stored in the memory to perform a predetermined operation.
  • the processor 220 detects the standard container area corresponding to the standard container from the input image.
  • the processor 220 may detect the standard container area corresponding to the standard container from the input image using a method of detecting a visual tag or a method using an object detection algorithm such as You Only Look Once (YOLO).
  • YOLO You Only Look Once
  • the processor 220 obtains a container identifier corresponding to the detected standard container.
  • the container identifier may be obtained using a visual tag.
  • the container identifier may be obtained by recognizing the container identifier described in the standard container using a character recognition algorithm or a pattern recognition algorithm.
  • the processor 220 may acquire object information, which is information about an object contained in a standard container, based on the container identifier.
  • the processor 220 may further include a memory, and store object information corresponding to each container identifier in the memory.
  • the product information may include at least one of a product name, a product category, a manufacturer, a salesperson, a serial number, an expiration date, an active ingredient, and a storage method, or a combination thereof.
  • the processor 220 may acquire object information corresponding to the obtained container identifier based on the obtained container identifier and the object information stored in the memory.
  • the processor 220 may acquire object information corresponding to the container identifier by using an external database such as a cloud server.
  • the processor 220 recognizes the container wall area corresponding to the wall surface of the standard container and the object area corresponding to the object from the image of the standard container area.
  • the processor 220 may recognize the container wall area and the object area using the first machine learning model.
  • the processor 220 calculates the number of pixels in each of the container wall area and the object area, and calculates the pixel ratio of the object area.
  • the processor 220 calculates the number of pixels in the entire area including the container wall area and the object area.
  • the pixel ratio of the object area corresponds to the ratio of the number of pixels of the object area to the number of pixels of the entire area.
  • the pixel ratio can be defined as a percentage.
  • the processor 220 generates the object volume measurement value based on the pixel ratio of the object area.
  • the processor 220 may define the pixel ratio as a measurement value of the object volume.
  • the processor 220 may define a value obtained by multiplying a pixel ratio by a predetermined reference value as the object volume measurement value.
  • the output interface 230 outputs the volume measurement value generated by the processor 220 .
  • the output interface 230 may correspond to, for example, a display, an audio speaker, or a communication unit.
  • the output interface 230 outputs the container identifier and the object volume value together. According to another embodiment, the output interface 230 outputs the container identifier, the object information, and the object volume value together.
  • the memory 240 may store data and commands necessary for the operation of the object volume measuring apparatus 100 .
  • the memory 240 may be implemented as at least one of a volatile storage medium and a non-volatile storage medium, or a combination thereof.
  • the memory 240 may be implemented with various types of storage media.
  • the memory 240 may include a flash memory type, a hard disk type, a multimedia card micro type, a card type memory (eg, SD or XD memory), and a RAM.
  • the memory 240 may correspond to a cloud storage space.
  • the memory 240 may be implemented through a cloud service.
  • the memory 240 may store an input image, a container region image, and an intermediate output image.
  • FIG. 3 is a flowchart illustrating a method for measuring the volume of an object according to an embodiment of the present disclosure.
  • Each step of the method for measuring the volume of an object according to an embodiment of the present disclosure may be performed by various types of electronic devices including a processor.
  • the present disclosure will focus on an embodiment in which the object volume measurement apparatus 100 according to embodiments of the present disclosure performs the object volume measurement method. Therefore, the embodiments described with respect to the object volume measuring apparatus 100 are applicable to the embodiments of the object volume measuring method, and on the contrary, the embodiments described for the object volume measuring method are for the object volume measuring apparatus 100 . Applicable to the embodiments.
  • the object volume measurement method according to the disclosed embodiments is not limited to being performed by the object volume measurement apparatus 100 disclosed in the present disclosure, and may be performed by various types of electronic devices.
  • step S302 the object volume measurement apparatus 100 receives an input image captured by a camera.
  • the object volume measurement apparatus 100 detects a standard container area from the input image.
  • the object volume measuring apparatus 100 may detect a visual tag from an input image, and detect a standard container area based on the detected visual tag.
  • the object volume measuring apparatus 100 may detect a standard container region from an input image using a machine learning model.
  • step S306 the object volume measuring apparatus 100 recognizes the container wall area corresponding to the wall surface of the standard container and the object area corresponding to the object from the image of the standard container area.
  • the object volume measuring apparatus 100 may recognize the container wall area and the object area using the first machine learning model.
  • the object volume measuring apparatus 100 calculates the number of pixels in each of the container wall area and the object area, and calculates the pixel ratio of the object area.
  • the object volume measuring apparatus 100 calculates the number of pixels in the entire area including the container wall area and the object area.
  • the pixel ratio of the object area corresponds to the ratio of the number of pixels of the object area to the number of pixels of the entire area.
  • the pixel ratio can be defined as a percentage.
  • the object volume measurement apparatus 100 generates an object volume measurement value based on the pixel ratio of the object area.
  • the object volume measurement apparatus 100 may define a pixel ratio as an object volume measurement value.
  • the object volume measurement apparatus 100 may define a value obtained by multiplying a pixel ratio by a predetermined reference value as the object volume measurement value.
  • FIG. 4 is a view showing a standard container according to an embodiment of the present disclosure.
  • Standard containers (410, 420, 430) include one or a plurality of types. Each type of standard container (410, 420, 430) may have a different shape, size, color, and the like. When the standard containers (410, 420, 430) are photographed by a camera, the upper surface and the front part may have an open shape so that the contained object is visible. In addition, the standard containers (410, 420, 430) have a plurality of types of different sizes, the size may be defined by the width, depth, and height.
  • the standard containers 410 , 420 , 430 may have a polyhedral shape.
  • the standard containers (410, 420, 430) may have a rectangular parallelepiped shape as shown in FIG.
  • Standard containers (410, 420, 430) may have a shape in which the upper surface and the front of the rectangular parallelepiped are open.
  • the standard containers 410 , 420 , and 430 may have identifier regions 440a , 440b , and 440c indicating information indicating the container identifier in a predetermined region of the front surface photographed by the camera.
  • the identifier areas 440a, 440b, and 440c are areas representing container identifier information as visual information.
  • a visual tag is disposed in the identifier areas 440a, 440b, and 440c.
  • the visual tag may include, for example, an ARUCO Marker, a Quick Response (QR) code, a barcode, and the like.
  • the visual tag may include container identifier information corresponding to a corresponding standard container, object information, and the like.
  • the identifier regions 440a, 440b, and 440c may be expressed as characters, patterns, symbols, or the like. Characters, patterns, symbols, etc. may represent container identifier information, object information, etc. corresponding to the corresponding standard container.
  • FIG. 5 is a diagram in which a visual tag is disposed according to an embodiment of the present disclosure.
  • the container identification tag 510 is disposed in the identifier area on the front of the standard container 110 .
  • the container identification tag 510 is a configuration corresponding to the visual tag.
  • the container identification tag 510 includes identifier information and object information of the standard container 110 .
  • the identifier information indicates the identification number of the standard container 110 .
  • the object information may correspond to, for example, a category (eg, food, clothing, miscellaneous goods, etc.) of an object contained in the standard container 110 , a product model, a product name, and the like.
  • the object volume measurement apparatus 100 When the input image is a moving picture, when a new container identification tag 510 is detected from the frame, the object volume measurement apparatus 100 defines a new standard container area. According to an embodiment, the object volume measurement apparatus 100 may perform operations S304, S306, S308, and S310 based on the detection of the new container identification tag. According to an embodiment of the present disclosure, the object volume measurement system 10 may take stock of the warehouse as a whole while sequentially photographing standard containers in the warehouse while moving the camera.
  • the object volume measurement apparatus 100 detects and stores the container identification tag 510 from an input image corresponding to the video. For example, the object volume measurement apparatus 100 may capture 60 frames per second and store the identification number of the container identification tag 510 identified in the captured image. Next, when the object volume measurement apparatus 100 detects a non-overlapping identification number among the stored container identification tags 510 in a new frame, stores the detected new identification number, and S304, S306 for a new standard container , S308, and S310 are performed. The object volume measurement apparatus 100 repeats the above process with respect to the input image, and acquires the volume measurement value of each standard container.
  • FIG. 6 is a diagram illustrating a visual tag according to an embodiment of the present disclosure.
  • the visual tags 610a and 610b may be implemented as ARUCO markers as shown in FIG. 6 .
  • ARUCO marker is a type of two-dimensional visual marker, and consists of a two-dimensional bit pattern of n*n size and a black border area surrounding it. The black border area improves the recognition rate of the marker.
  • the two-dimensional bit pattern inside is composed of a combination of white cells and black cells, and represents predetermined information.
  • the container identification tag 510 may be implemented in the form of an ARUCO marker as shown in FIG. 6 .
  • FIG. 7 is a diagram illustrating a flowchart of a method for measuring the volume of an object according to an embodiment of the present disclosure.
  • the object volume measurement method may perform additional image processing in addition to the processing described with reference to FIG. 3 in the process of calculating a volume measurement value from an input image.
  • the object volume measurement apparatus 100 receives an input image captured by a camera in step S702.
  • step S704 the object volume measuring apparatus 100 converts the input image into a black and white scale.
  • the object volume measuring apparatus 100 converts a pixel value of an input image into a black-and-white scale image having two pixel values corresponding to black and white, respectively, by using a predetermined reference value.
  • the object volume measurement apparatus 100 detects the standard container area from the black-and-white scale image.
  • the object volume measuring apparatus 100 may detect a visual tag from an input image, and detect a standard container area based on the detected visual tag.
  • the object volume measuring apparatus 100 may detect a standard container region from an input image using a machine learning model.
  • the object volume measurement apparatus 100 detects a standard container area from a black-and-white scale image using the YOLO model. A process of detecting the standard container area will be described with reference to FIG. 8 .
  • FIG. 8 is a diagram illustrating a process of detecting a standard container area from a black-and-white scale image, according to an embodiment of the present disclosure.
  • the object volume measurement apparatus 110 inputs the black-and-white scale image 810 into the object recognition model 820 .
  • the object recognition model 820 is, for example, a You Only Look Once (YOLO) model.
  • the object recognition model 820 may correspond to a machine learning model including a plurality of nodes and layers.
  • the object recognition model 820 may include a YOLO model trained to detect the standard container 110 from the input image and output the position, area, and probability of corresponding to the standard container 110 of the standard container 110 .
  • YOLO is a deep learning framework based on CNN (Convolutional Neural Network).
  • YOLO's Object Recognition leaves a total of 4 positional information when recognizing an object trained in advance from a photo.
  • the four positional information includes an x-coordinate, a y-coordinate, a width, and a height of the recognized object.
  • What kind of object is recognized based on the four pieces of location information can be expressed as a rectangle 832 and text 834 through YOLO.
  • one model capable of recognizing the standard container 110 through YOLO is manufactured. This model cannot recognize other objects, and is only used to find the standard container 110 from the input black-and-white scale image 810 to obtain four positional information.
  • the object recognition model 820 using the YOLO model outputs the above-described four pieces of location information.
  • the object recognition model 820 outputs an object recognition image 830 in which four pieces of location information are overlaid on a black-and-white scale image 810 .
  • the object recognition image 830 includes a box 832 indicating a standard container area and an indicator 834 indicating a standard container.
  • the indicator 834 indicating the standard container may include a probability that the area corresponding to the box 832 corresponds to the standard container 110 .
  • the object recognition model 820 may crop the black-and-white scale image 810 to include only the standard container area corresponding to the standard container 110 to generate and output the standard container area image. have.
  • step S708 the object volume measurement apparatus 100 performs a background removal process.
  • a background removal processing process will be described.
  • FIG. 9 is a diagram illustrating a background removal process according to an embodiment of the present disclosure.
  • the object volume measurement apparatus 100 inputs the object recognition image 830 to the background removal module 910 .
  • the background removal module 910 generates and outputs the background removal image 920 in which the background is removed from the object recognition image 830 except for the area corresponding to the standard container 110 .
  • the background removal module 910 includes a Graph-cut algorithm.
  • Graph-cut is one of the representative background removal algorithms.
  • ROI Region of Interest
  • the four positional information received from YOLO is used to construct this ROI, and the graph-cut algorithm displays the outer and inner pixels of the ROI as foreground or background.
  • the clustering operation of the basic graph-cut algorithm is used, the pixels clustered in the foreground are left in color, and the colors of the pixels clustered in the background are all changed to black.
  • the background removal module 910 outputs a background removal image 920 .
  • the background removal image 920 may include a box 832 and an indicator 834 generated by the object recognition model 820 .
  • step S710 the object volume measuring apparatus 100 recognizes the container wall area corresponding to the wall surface of the standard container and the object area corresponding to the object from the background removal image 920 .
  • the object volume measuring apparatus 100 may recognize the container wall area and the object area using the first machine learning model.
  • the object volume measuring apparatus 100 generates a first output image in which the container wall area and the object area are recognized. The operation of step S710 will be described in detail with reference to FIG. 10 .
  • FIG. 10 is a diagram illustrating a process of generating a first output image from a background removal image according to an embodiment of the present disclosure.
  • the object volume measuring apparatus 100 generates a first output image 1030 in which the object area and the container area are separated by inputting the background removal image 1010 to the first machine learning model 1020 .
  • the background removal image 1010 is an image in which the box 832 and the indicator 834 are removed from the background removal image 920 described with reference to FIG. 9 .
  • the first machine learning model 1020 receives the background removal image 1010 and recognizes and classifies an object from the background removal image 1010 .
  • the first machine learning model 1020 includes a semantic segmentation model.
  • the output of the Semantic Segmentation model is an image in which the object inside the standard container 110 and the wall of the container are displayed in different colors.
  • Semantic segmentation model is a machine learning model that divides objects in an image into meaningful units. Semantic segmentation model predicts which class each pixel of an image belongs to. According to an embodiment of the present disclosure, the semantic segmentation model defines the object and the container wall inside the standard container 110 as classes, and distinguishes each pixel from the image input to the semantic segmentation model into the object and the container wall.
  • the semantic segmentation model uses a convolutional neural network (CNN) model.
  • CNN convolutional neural network
  • the semantic segmentation model can generate and output a segmentation map indicating the predicted class of each pixel.
  • the semantic segmentation model generates a first output image 1030 in which an object region and a container wall region are displayed in different colors.
  • the object volume measuring apparatus 100 calculates the number of pixels in each of the container wall area and the object area, and calculates the pixel ratio of the object area.
  • the object volume measuring apparatus 100 calculates the number of pixels in each of the container wall area and the object area from the first output image 1030 .
  • the object volume measuring apparatus 100 calculates the number of pixels in the entire area including the container wall area and the object area.
  • the pixel ratio of the object area corresponds to the ratio of the number of pixels of the object area to the number of pixels of the entire area.
  • the pixel ratio can be defined as a percentage.
  • the object volume measuring apparatus 100 may calculate the number of pixels in each of the container wall area and the object area by applying different weights to the respective container wall surfaces. A process of calculating the volume of an object according to an embodiment of the present disclosure will be described in detail with reference to FIG. 11 .
  • FIG. 11 is a diagram illustrating a process of calculating the volume of an object contained in a standard container, according to an embodiment of the present disclosure.
  • the final result of the semantic segmentation model is the first output image 1030 in which the object inside the standard container 110 and the container wall are displayed in two colors.
  • the number of pixels corresponding to each color is determined from the final photo. If the number of pixels in the container wall area is a and the number of pixels in the object area is b, the pixel ratio of the most basic object area can be calculated through Equation 1.
  • R percentage of pixels in the object area
  • the pixels of the container wall region are divided into a total of four regions 1121, 1122, 1123, and 1124, and different region weights are given to each region 1121, 1122, 1123, and 1124.
  • the region weight has a value between 0 and 1.
  • the weight of each wall surface of the standard container 110 of the rectangular parallelepiped shape may increase in the order of both sides, the front side, and the bottom side.
  • the area weight is used to correct shadows appearing in the input image.
  • an embodiment of the present disclosure increases the weight of each wall surface in the order of both sides, the front side, and the bottom side by reflecting the characteristics of the shadow.
  • the number of pixels b of the object area inside the standard container 110 is 5000.
  • the number of pixels belonging to the first area 1121 is 800
  • the number of pixels belonging to the second area 1122 is 700
  • the number of pixels belonging to the third area 1123 is 950
  • the number of pixels belonging to the third area 1123 is 950.
  • the number of pixels belonging to the region 1124 is 2450.
  • the region weight of the first region 1121 and the third region 1123 is defined as 0.7
  • the region weight of the second region 1122 is 0.8
  • the region weight of the fourth region 1124 is defined as 1.
  • the number of pixels in the first region 1121 is multiplied by 0.7
  • the number of pixels in the second region 1122 is multiplied by 0.8
  • the number of pixels in the third region 1123 is multiplied by 0.7
  • the pixels in the fourth region 1124 are multiplied by 0.7.
  • the sum of the number of pixels multiplied by the weight is 4340.
  • an adjustment of approximately 13% was applied to the pixel ratio using the number of pixels multiplied by the area weight to the pixel ratio of the object area calculated using Equation 1 above.
  • FIG. 12 is a diagram illustrating an output of a first machine learning model according to an embodiment of the present disclosure.
  • an error caused by a shadow occurs in the first output image 1210 in which each pixel is classified.
  • regions 1220 , 1222 , and 1224 are regions corresponding to errors caused by shadows.
  • Areas 1220 , 1222 , and 1224 partially include a portion corresponding to the container wall area of the standard container 110 , and include pixels incorrectly recognized as object areas due to shadows.
  • the volume calculation module 1110 divides the weight for the shadow into a total of four regions.
  • the area weight of each area is set to be low in the side where shadows occur the most, that is, the first area 1121 and the third area 1123 .
  • the second area 1122 having less shadow than the first area 1121 and the third area 1123 is set higher than the first area 1121 and the third area 1123 .
  • a weight of 1 is applied to the fourth area 1124 , which is not affected by shadows, in order to reflect the number of pixels as it is.
  • the volume calculation module 1110 receives the number of pixels and positions of pixels in the object area as inputs, and divides it into four areas.
  • the volume calculation module 1110 may use a beta function that outputs the number of pixels of the object area in each of the four areas from the first output image.
  • the number of pixels in the object area of each area is multiplied by the weight of each area to output the sum of the number of pixels in the object area to which the weight is applied.
  • the volume calculation module 1110 calculates the pixel ratio of the weighted object area by using Equation (2).
  • R percentage of pixels in the object area
  • the number of pixels b of the object area inside the standard container 110 is 5000.
  • the number of pixels belonging to the first area 1121 is 800
  • the number of pixels belonging to the second area 1122 is 700
  • the number of pixels belonging to the third area 1123 is 950
  • the number of pixels belonging to the third area 1123 is 950.
  • the number of pixels belonging to the region 1124 is 2450.
  • the value of a which is the number of pixels in the wall area, is 5200.
  • the region weight of the first region 1121 and the third region 1123 is defined as 0.7
  • the region weight of the second region 1122 is 0.8
  • the region weight of the fourth region 1124 is defined as 1.
  • the R value is 45.59%.
  • the object volume measurement apparatus 100 generates a volume measurement value based on the pixel ratio of the object area.
  • the object volume measurement apparatus 100 may define a pixel ratio of the object area as a volume measurement value.
  • the pixel ratio of the object area may correspond to the R value of Equation 1 or the R value of Equation 2 described above.
  • the object volume measurement apparatus 100 may define a value obtained by multiplying the pixel ratio of the object area by a predetermined reference value as the object volume measurement value.
  • the predetermined reference value may correspond to a volume value when the standard container 110 is filled with an object.
  • FIG. 13 is a diagram illustrating a structure of a processor according to another embodiment of the present disclosure.
  • the processor 220 includes a black-and-white conversion module 1310 , an object recognition model 820 , a background removal module 910 , a first machine learning model 1020 , and a volume calculation module 1110 .
  • Each block in the processor 220 corresponds to a software module, a hardware module, or a combination of a software module and a hardware module. Therefore, the embodiment of the present disclosure is not limited by the structure of each block in the processor 220 , and each block in the processor 220 may be combined with each other, or one block may be divided into a plurality of blocks.
  • each module of FIG. 13 Since the operation of each module of FIG. 13 is similar to the operation of each step described with reference to FIG. 7 , the operation of each module will be briefly described in FIG. 13 to avoid duplicate description. The operation of the device described with reference to FIG. 7 may also be applied to each module of FIG. 13 .
  • the black-and-white conversion module 1310 generates a black-and-white scale image by converting the input image 810 into a black-and-white scale.
  • the black-and-white conversion module 1310 converts the input image 810 into a black-and-white scale in order to reduce the amount of processing.
  • the processor 220 can process the input image with one channel instead of processing the input image with three channels, R, G, and B, so that the throughput can be reduced.
  • the object recognition model 820 detects the standard container area from the black-and-white input image.
  • the object recognition model 820 may include a YOLO model.
  • the object recognition module 820 generates an object recognition image 830 corresponding to the standard container area and outputs it to the background removal module 910 .
  • the background removal module 910 generates a background removal image 920 in which a background is removed from the object recognition image 830 except for an area corresponding to the standard container 110 .
  • the background removal module 910 outputs the background removal image 920 to the first machine learning model 1020 .
  • the first machine learning model 1020 receives the background removed image 920 , and recognizes and classifies an object from the background removed image 920 .
  • the first machine learning model 1020 includes a semantic segmentation model.
  • the output of the Semantic Segmentation model is an image in which the object inside the standard container 110 and the wall of the container are displayed in different colors.
  • the first machine learning model 1020 outputs a first output image 1030 in which the object area and the container wall area are displayed in different colors.
  • the first machine learning model 1020 may be trained using the Tensorflow API.
  • the first machine learning model 1020 is learned using training data using the background-removed image 920 as input data and image data from which an object is recognized and classified as output data.
  • the input data and the output data may have a predetermined size, and the size may be defined as, for example, 250*250, 128*128, or the like.
  • any engine or data augmentation algorithm may be used.
  • the volume calculation module 1110 receives the first output image 1030 from the first machine learning model 1020 .
  • the volume calculation module 1110 generates and outputs a volume calculation value from the first output image 1030 in the manner described above with reference to FIG. 11 .
  • FIG. 14 is a diagram illustrating the structure of a CNN model according to an embodiment of the present disclosure.
  • the first machine learning model 1020 includes an artificial deep neural network of a CNN structure.
  • the CNN structure includes a convolutional product layer and a fully connected layer.
  • the convolutional product layer performs the operation of feature extraction.
  • the synthetic product layer includes a convolution layer, an activation layer, and a pooling layer.
  • the feature of the input vector is extracted from the input vector by the convolutional product layer.
  • a fully connected layer is placed.
  • the fully connected layer generates an output vector from features extracted from the convolutional product layer.
  • Fully Connected layer is calculated by connecting all nodes between layers.
  • the first machine learning model 1020 may be learned by training data based on a model including a CNN structure.
  • 15 is a diagram illustrating image data and a first output image of a standard container area according to an embodiment of the present disclosure.
  • the image data 1510 of the standard container area may be generated such that the standard container is disposed in the center. According to an embodiment, the image data 1510 of the standard container area may recognize the side 1512 of the standard container and display it on the image.
  • the first output image 1520 classifies object types and indicates regions corresponding to each object type with the same pixel value or pattern.
  • the disclosed embodiments may be implemented in the form of a computer-readable recording medium storing instructions and data executable by a computer.
  • the instructions may be stored in the form of program code, and when executed by the processor, a predetermined program module may be generated to perform a predetermined operation. Further, the instruction, when executed by a processor, may perform certain operations of the disclosed embodiments.

Abstract

An object volume measurement method is provided comprising the steps of: receiving an input image; detecting a standard receptacle area corresponding to a predetermined standard size of a receptacle, from the input image; recognizing a receptacle wall surface area corresponding to the wall surfaces of the standard receptacle and an object area corresponding to an object received inside the standard receptacle, from the input image by means of a first machine learning model; calculating the ratio of the pixels of the object area relative to the pixels of the total area comprising the receptacle wall surface area and object area; and generating a volume measurement value of the object on the basis of the pixel ratio.

Description

기계학습 모델을 이용해 촬영 영상에 기반하여 용기 내의 물건 부피를 측정하는 장치 및 방법Apparatus and method for measuring the volume of an object in a container based on a captured image using a machine learning model
본 개시의 실시예들은, 기계학습 모델을 이용해 촬영 영상에 기반하여 용기 내의 물건의 부피를 측정하는 장치 및 방법에 관한 것이다. Embodiments of the present disclosure relate to an apparatus and method for measuring the volume of an object in a container based on a captured image using a machine learning model.
물류 시스템, 공장 등은 다수의 물건을 취급하기 때문에, 정확한 재고의 측정을 위해 많은 리소스를 투입하고 있다. 기존의 방식에 의하면, 재고를 파악하기 위하여, 물건의 입고 및 출고를 파악하여 재고를 측정한다. 그런데 물건의 입고 및 출고를 파악하기 위해 많은 인력과 비용이 투입되어, 다량의 물건의 재고를 빠르게 파악하는데 어려움이 있다. 상용에 보급된 재고파악기술은 RFID, 무게센서등을 이용하는데, 이때 각 물건에 RFID 태그를 부착하거나, 각선반에 무게센서를 장착하는 작업과 비용이 추가적으로 발생하여, 보급화에는 어려움이 있다.Logistics systems, factories, etc. deal with a large number of goods, so a lot of resources are put into accurate inventory measurement. According to the conventional method, in order to grasp the inventory, the stock is measured by grasping the goods in and out. However, a lot of manpower and money are invested in order to check the stocking and release of goods, so it is difficult to quickly grasp the inventory of a large amount of goods. Commercially available inventory tracking technology uses RFID, weight sensors, etc. At this time, it is difficult to spread because RFID tags are attached to each item or weight sensors are installed on each shelf and additional costs are incurred.
본 개시의 실시예들은, 영상 데이터를 이용하여, 물건 부피를 측정하는 방법, 장치, 및 컴퓨터 프로그램을 제공하기 위한 것이다.SUMMARY Embodiments of the present disclosure provide a method, an apparatus, and a computer program for measuring the volume of an object using image data.
본 개시의 일 실시예의 일 측면에 따르면, 입력 영상을 수신하는 단계; 상기 입력 영상으로부터 미리 정의된 규격 용기에 대응하는 규격 용기 영역을 검출하는 단계; 상기 입력 영상으로부터 제1 기계학습 모델을 이용하여 상기 규격 용기의 벽면에 대응하는 용기 벽면 영역과 상기 규격 용기 내부에 담긴 물건에 대응하는 물건 영역을 인식하는 단계; 상기 용기 벽면 영역 및 상기 물건 영역을 포함하는 전체 영역의 픽셀 중, 상기 물건 영역의 픽셀 비율을 산출하는 단계; 및 상기 픽셀 비율에 기초하여, 상기 물건의 부피 측정 값을 생성하는 단계를 포함하는 물건 부피 측정 방법이 제공된다.According to an aspect of an embodiment of the present disclosure, receiving an input image; detecting a standard container area corresponding to a predefined standard container from the input image; recognizing a container wall area corresponding to the wall surface of the standard container and an object area corresponding to an object contained in the standard container using a first machine learning model from the input image; calculating a pixel ratio of the object area among pixels of the entire area including the container wall area and the object area; and generating a volume measurement value of the object based on the pixel ratio.
또한, 본 개시의 일 실시예에 따르면, 물건 부피 측정 방법은, 상기 입력 영상으로부터 상기 규격 용기 영역을 제외한 배경 영역을 제거하는 단계를 더 포함하고, 상기 용기 벽면 영역 및 상기 물건 영역을 인식하는 단계는, 상기 배경 영역이 제거된 입력 영상을 이용하여 수행된다.Further, according to an embodiment of the present disclosure, the method for measuring object volume further includes removing a background area excluding the standard container area from the input image, and recognizing the container wall area and the object area. is performed using the input image from which the background area has been removed.
또한, 본 개시의 일 실시예에 따르면, 상기 배경 영역을 제거하는 단계는, 상기 규격 용기 영역을 관심 영역으로 정의하는 단계; 상기 입력 영상으로부터 상기 관심 영역을 제외한 영역을 상기 배경 영역으로 정의하는 단계; 및 상기 배경 영역을 단일 픽셀 값으로 표시한 제1 출력 영상을 생성하는 단계를 포함할 수 있다.In addition, according to an embodiment of the present disclosure, removing the background region may include defining the standard container region as a region of interest; defining a region excluding the region of interest from the input image as the background region; and generating a first output image in which the background area is displayed as a single pixel value.
또한, 본 개시의 일 실시예에 따르면, 상기 제1 기계학습 모델은 Sementic Segmentation 모델에 대응하고, 상기 용기 벽면 영역 및 상기 물건 영역을 인식하는 단계는, 상기 Sementic Segmentation 모델을 이용하여 상기 용기 벽면 영역과 상기 물건 영역을 인식하는 단계를 포함하고, 상기 물건 부피 측정 방법은, 상기 용기 벽면 영역을 제1 픽셀 값으로 변환하고, 상기 물건 영역을 제2 픽셀 값으로 변환하는 단계를 더 포함한다.In addition, according to an embodiment of the present disclosure, the first machine learning model corresponds to a segmentic segmentation model, and the step of recognizing the container wall area and the object area includes the container wall area using the segmentic segmentation model. and recognizing the object region, wherein the object volume measurement method further includes converting the container wall region into a first pixel value and converting the object region into a second pixel value.
또한, 본 개시의 일 실시예에 따르면, 상기 규격 용기는 일부가 개방된 다면체 형태의 규격 용기이고, 상기 픽셀 비율을 산출하는 단계는, 상기 규격 용기의 각 벽면에 대응하는 복수의 벽면 영역을 인식하는 단계; 상기 물건 영역을 상기 복수의 벽면 영역에 각각 대응하는 복수의 서브 물건 영역으로 분할하는 단계; 상기 복수의 서브 물건 영역 각각의 픽셀 수에, 각 벽면에 대응하는 가중치를 적용하여 합산한 가중 물건 영역 픽셀 수를 산출하는 단계; 및 상기 가중 물건 영역 픽셀 수와 상기 용기 벽면 영역의 픽셀 수를 이용하여, 상기 픽셀 비율을 산출하는 단계를 포함한다.In addition, according to an embodiment of the present disclosure, the standard container is a standard container in the form of a polyhedron partially open, and the calculating of the pixel ratio includes recognizing a plurality of wall areas corresponding to each wall surface of the standard container. to do; dividing the object area into a plurality of sub object areas respectively corresponding to the plurality of wall areas; calculating a weighted object area pixel count by applying a weight corresponding to each wall surface to the pixel number of each of the plurality of sub object areas; and calculating the pixel ratio by using the number of pixels in the weighted object area and the number of pixels in the container wall area.
또한, 본 개시의 일 실시예에 따르면, 상기 규격 용기는 상면 및 정면이 개방된 직육면체 규격 용기이고, 상기 입력 영상은 상기 개방된 상면 및 정면으로부터 사선으로 상기 규격 용기를 촬영한 영상이다.In addition, according to an embodiment of the present disclosure, the standard container is a rectangular standard container with an open top and front surfaces, and the input image is an image obtained by photographing the standard container with an oblique line from the open top and front surfaces.
또한, 본 개시의 일 실시예에 따르면, 상기 직육면체 규격 용기의 각 벽면의 가중치는, 상기 직육면체 규격 용기의 양측면, 정면, 및 하면 순서로 증가할 수 있다.In addition, according to an embodiment of the present disclosure, the weight of each wall surface of the rectangular parallelepiped container may increase in the order of both sides, the front, and the lower surface of the rectangular standard container.
또한, 본 개시의 일 실시예에 따르면, 상기 물건의 부피 측정 값은 상기 규격 용기의 부피 전체에 대한 퍼센트로 정의될 수 있다.In addition, according to an embodiment of the present disclosure, the volume measurement value of the object may be defined as a percentage of the total volume of the standard container.
또한, 본 개시의 일 실시예에 따르면, 상기 입력 영상은 복수의 프레임을 포함하는 동영상이고, 상기 물건 부피 측정 방법은, 상기 규격 용기 영역이 검출된 프레임을 추출하는 단계를 더 포함하고, 상기 규격 용기 영역을 검출하는 단계는, 상기 추출된 프레임을 상기 입력 영상으로 이용할 수 있다.In addition, according to an embodiment of the present disclosure, the input image is a moving picture including a plurality of frames, and the method for measuring the volume of an object further includes extracting a frame in which the standard container area is detected, the standard The detecting of the container region may include using the extracted frame as the input image.
본 개시의 일 실시예의 다른 측면에 따르면, 입력 영상을 수신하는 입력 인터페이스; 적어도 하나의 인스트럭션을 저장하는 메모리; 상기 적어도 하나의 인스트럭션을 실행하는 적어도 하나의 프로세서; 및 출력 인터페이스를 포함하고, 상기 적어도 하나의 프로세서는 상기 적어도 하나의 인스트럭션을 실행함에 의해, 상기 입력 영상으로부터 미리 정의된 규격 용기에 대응하는 규격 용기 영역을 검출하고, 상기 입력 영상으로부터 제1 기계학습 모델을 이용하여 상기 규격 용기의 벽면에 대응하는 용기 벽면 영역과 상기 규격 용기 내부에 담긴 물건에 대응하는 물건 영역을 인식하고, 상기 용기 벽면 영역 및 상기 물건 영역을 포함하는 전체 영역의 픽셀 중, 상기 물건 영역의 픽셀 비율을 산출하고, 상기 픽셀 비율에 기초하여, 상기 물건의 부피 측정 값을 생성하고, 상기 출력 인터페이스를 통해 상기 물건의 부피 측정 값을 출력하는, 물건 부피 측정 장치가 제공된다.According to another aspect of an embodiment of the present disclosure, an input interface for receiving an input image; a memory storing at least one instruction; at least one processor executing the at least one instruction; and an output interface, wherein the at least one processor detects a standard container region corresponding to a predefined standard container from the input image by executing the at least one instruction, and performs first machine learning from the input image. The container wall area corresponding to the wall surface of the standard container and the object area corresponding to the object contained in the standard container are recognized using the model, and among the pixels of the entire area including the container wall area and the object area, the An object volume measurement apparatus is provided, which calculates a pixel ratio of an object area, generates a volume measurement value of the object based on the pixel ratio, and outputs the object volume measurement value through the output interface.
본 개시의 일 실시예의 또 다른 측면에 따르면, 프로세서에 의해 실행되었을 때 물건 부피 측정 방법을 수행하고, 기록매체에 기록된 컴퓨터 프로그램에 있어서, 상기 물건 부피 측정 방법은, 상기 입력 영상으로부터 미리 정의된 규격 용기에 대응하는 규격 용기 영역을 검출하는 단계; 상기 입력 영상으로부터 제1 기계학습 모델을 이용하여 상기 규격 용기의 벽면에 대응하는 용기 벽면 영역과 상기 규격 용기 내부에 담긴 물건에 대응하는 물건 영역을 인식하는 단계; 상기 용기 벽면 영역 및 상기 물건 영역을 포함하는 전체 영역의 픽셀 중, 상기 물건 영역의 픽셀 비율을 산출하는 단계; 및 상기 픽셀 비율에 기초하여, 상기 물건의 부피 측정 값을 생성하는 단계를 포함하는 기록매체에 기록된 컴퓨터 프로그램이 제공된다.According to another aspect of an embodiment of the present disclosure, in a computer program that performs a method for measuring object volume when executed by a processor and recorded on a recording medium, the method for measuring object volume includes a predefined method from the input image. detecting a standard container area corresponding to a standard container; recognizing a container wall area corresponding to the wall surface of the standard container and an object area corresponding to an object contained in the standard container using a first machine learning model from the input image; calculating a pixel ratio of the object area among pixels of the entire area including the container wall area and the object area; and generating a volume measurement value of the object based on the pixel ratio.
본 개시의 실시예들에 따르면, 영상 데이터를 이용하여, 물건 부피를 측정하는 방법, 장치, 및 컴퓨터 프로그램을 제공할 수 있는 효과가 있다.According to embodiments of the present disclosure, it is possible to provide a method, an apparatus, and a computer program for measuring the volume of an object by using image data.
도 1은 본 개시의 일 실시예에 따른 물건 부피 측정 시스템을 나타낸 도면이다.1 is a diagram illustrating a system for measuring object volume according to an embodiment of the present disclosure.
도 2는 본 개시의 일 실시예에 따른 물건 부피 측정 장치의 구조를 나타낸 도면이다.2 is a view showing the structure of an object volume measurement apparatus according to an embodiment of the present disclosure.
도 3은 본 개시의 일 실시예에 따른 물건 부피 측정 방법을 나타낸 흐름도이다. 3 is a flowchart illustrating a method for measuring the volume of an object according to an embodiment of the present disclosure.
도 4는 본 개시의 일 실시예에 따른 규격 용기를 나타낸 도면이다.4 is a view showing a standard container according to an embodiment of the present disclosure.
도 5는 본 개시의 일 실시예에 따라 비주얼 태그가 배치된 도면이다.5 is a diagram in which a visual tag is disposed according to an embodiment of the present disclosure.
도 6은 본 개시의 일 실시예에 따른 비주얼 태그를 나타내는 도면이다.6 is a diagram illustrating a visual tag according to an embodiment of the present disclosure.
도 7은 본 개시의 일 실시예에 따른 물건 부피 측정 방법의 흐름도를 나타낸 도면이다.7 is a diagram illustrating a flowchart of a method for measuring the volume of an object according to an embodiment of the present disclosure.
도 8은 본 개시의 일 실시예에 따라, 흑백 스케일 영상으로부터 규격 용기 영역을 검출하는 과정을 나타낸 도면이다.8 is a diagram illustrating a process of detecting a standard container area from a black-and-white scale image, according to an embodiment of the present disclosure.
도 9는 본 개시의 일 실시예에 따른 배경 제거 처리 과정을 나타낸 도면이다.9 is a diagram illustrating a background removal process according to an embodiment of the present disclosure.
도 10은 본 개시의 일 실시예에 따라 배경 제거 영상으로부터 제1 출력 영상을 생성하는 과정을 나타낸 도면이다.10 is a diagram illustrating a process of generating a first output image from a background removal image according to an embodiment of the present disclosure.
도 11은 본 개시의 일 실시예에 따라, 규격 용기에 담긴 물건의 부피를 산출하는 과정을 나타낸 도면이다.11 is a diagram illustrating a process of calculating the volume of an object contained in a standard container, according to an embodiment of the present disclosure.
도 12는 본 개시의 일 실시예에 따른 제1 기계학습 모델의 출력을 나타낸 도면이다.12 is a diagram illustrating an output of a first machine learning model according to an embodiment of the present disclosure.
도 13은 본 개시의 다른 실시예에 따른 프로세서의 구조를 나타낸 도면이다.13 is a diagram illustrating a structure of a processor according to another embodiment of the present disclosure.
도 14는 본 개시의 일 실시예에 따른 CNN 모델의 구조를 나타낸 도면이다.14 is a diagram illustrating the structure of a CNN model according to an embodiment of the present disclosure.
도 15는 본 개시의 일 실시예에 따른 규격 용기 영역의 영상 데이터 및 제1 출력 영상을 나타낸 도면이다. 15 is a diagram illustrating image data and a first output image of a standard container area according to an embodiment of the present disclosure.
본 명세서는 본 개시의 청구항의 권리범위를 명확히 하고, 본 개시의 실시 예들이 속하는 기술분야에서 통상의 지식을 가진 자가 본 개시의 실시 예들을 실시할 수 있도록, 본 개시의 실시 예들의 원리를 설명하고, 실시 예들을 개시한다. 개시된 실시 예들은 다양한 형태로 구현될 수 있다.This specification clarifies the scope of the claims of the present disclosure, and describes the principles of the embodiments of the present disclosure so that those of ordinary skill in the art to which the embodiments of the present disclosure pertain can practice the embodiments of the present disclosure and discloses embodiments. The disclosed embodiments may be implemented in various forms.
명세서 전체에 걸쳐 동일 참조 부호는 동일 구성요소를 지칭한다. 본 명세서가 실시 예들의 모든 요소들을 설명하는 것은 아니며, 본 개시의 실시 예들이 속하는 기술분야에서 일반적인 내용 또는 실시 예들 간에 중복되는 내용은 생략한다. 명세서에서 사용되는 '부'(part, portion)라는 용어는 소프트웨어 또는 하드웨어로 구현될 수 있으며, 실시 예들에 따라 복수의 '부'가 하나의 요소(unit, element)로 구현되거나, 하나의 '부'가 복수의 요소들을 포함하는 것도 가능하다. 이하 첨부된 도면들을 참고하여 본 개시의 실시 예들, 및 실시 예들의 작용 원리에 대해 설명한다.Like reference numerals refer to like elements throughout. This specification does not describe all elements of the embodiments, and general content in the technical field to which the embodiments of the present disclosure pertain or overlapping between the embodiments will be omitted. As used herein, the term 'part' (part, portion) may be implemented in software or hardware, and according to embodiments, a plurality of 'parts' may be implemented as one element (unit, element), or one 'part' It is also possible that ' includes a plurality of elements. Hereinafter, with reference to the accompanying drawings, embodiments of the present disclosure, and the principle of operation of the embodiments will be described.
도 1은 본 개시의 일 실시예에 따른 물건 부피 측정 시스템을 나타낸 도면이다.1 is a diagram illustrating a system for measuring object volume according to an embodiment of the present disclosure.
본 개시의 일 실시예에 따른 물건 부피 측정 시스템(10)은 카메라(120)를 이용하고 규격 용기(110)에 담겨진 물건(112)을 촬영하고, 촬영된 입력 영상(110)으로부터 물건 부피 측정 장치(100)에서 물건 부피를 측정한다. 본 개시의 실시예들에 따른 물건 부피 측정 시스템(10)은 물류 창고, 공장 등에서 이용될 수 있다. 예를 들면, 규격 용기(110)에 담겨진 물건(112)은 창고의 선반에 배치되고, 물건 부피 측정 시스템(10)은 카메라(120)를 이동시키면서 배치된 규격 용기(110)들을 촬영하여, 촬영된 입력 영상으로부터 각 규격 용기(110)에 담겨진 물건(112)의 부피를 측정할 수 있다. 카메라(120)는 소정의 이동 수단에 탑재되고, 예를 들면, 카메라(120) 및 물건 부피 측정 장치(100)가 이동 가능한 로봇의 형태로 구현되고, 로봇이 창고 내에서 소정의 경로로 이동하면서 각 규격 용기(110) 내의 물건의 부피를 측정할 수 있다.The object volume measurement system 10 according to an embodiment of the present disclosure uses the camera 120 to photograph the object 112 contained in the standard container 110 , and from the captured input image 110 , the object volume measurement device Measure the object volume at (100). The object volume measurement system 10 according to embodiments of the present disclosure may be used in a distribution warehouse, a factory, and the like. For example, the object 112 contained in the standard container 110 is placed on a shelf of the warehouse, and the object volume measurement system 10 takes the standard containers 110 placed while moving the camera 120, It is possible to measure the volume of the object 112 contained in each standard container 110 from the input image. The camera 120 is mounted on a predetermined moving means, for example, the camera 120 and the object volume measuring device 100 are implemented in the form of a movable robot, and while the robot moves in a predetermined path in the warehouse It is possible to measure the volume of the object in each standard container (110).
물건(112)은 미리 정해진 규격 용기(110)에 담겨진다. 규격 용기(110)는 미리 정의된 형태, 사이즈, 및 색상을 갖는 용기이다. 규격 용기(110)는 하나 이상의 종류로 정의될 수 있다. 물건(112)은 부피 측정의 대상이 되는 객체이다. 물건 부피는 하나의 규격 용기(110)에 담겨진 물건(112)이 차지하는 부피를 의미한다. The object 112 is contained in a predetermined standard container 110 . The standard container 110 is a container having a predefined shape, size, and color. The standard container 110 may be defined as one or more types. The object 112 is an object subject to volume measurement. The object volume means the volume occupied by the object 112 contained in one standard container 110 .
카메라(120)는 규격 용기(110)에 담겨진 물건(112)을 촬영한다. 카메라(120)는 렌즈, 셔터, 및 촬상 소자를 포함한다. 카메라(120)는 영상을 촬영하여, 촬영된 입력 영상을 물건 부피 측정 장치(100)로 출력한다. The camera 120 photographs the object 112 contained in the standard container 110 . The camera 120 includes a lens, a shutter, and an image pickup device. The camera 120 captures an image, and outputs the captured input image to the object volume measurement apparatus 100 .
물건 부피 측정 장치(100)는 프로세서 및 메모리를 포함하는 전자 장치의 형태로 구현될 수 있으며, 예를 들면, 스마트폰, 태블릿 PC, 노트북, 또는 웨어러블 장치 등의 형태로 구현될 수 있다. 일 실시예에 따르면, 물건 부피 측정 장치(100)는 클라우드 서버의 형태로 구현될 수 있다.The object volume measuring apparatus 100 may be implemented in the form of an electronic device including a processor and a memory, for example, in the form of a smart phone, a tablet PC, a notebook computer, or a wearable device. According to one embodiment, the object volume measuring apparatus 100 may be implemented in the form of a cloud server.
일 실시예에 따르면, 물건 부피 측정 장치(100)가 카메라(120)를 포함하여 하나의 장치로 구현될 수 있다. According to one embodiment, the object volume measuring apparatus 100 may be implemented as one device including the camera 120 .
다른 실시예에 따르면, 물건 부피 측정 장치(100)는 외부의 카메라(120)로부터 입력 영상을 수신할 수 있다. 물건 부피 측정 장치(100)는 통신부 또는 소정의 입력 인터페이스를 통해 입력 영상을 수신할 수 있다. 일 실시예에 따르면, 카메라(120)는 CCTV(closed circuit television) 카메라에 대응될 수 있다.According to another embodiment, the object volume measuring apparatus 100 may receive an input image from the external camera 120 . The object volume measuring apparatus 100 may receive an input image through a communication unit or a predetermined input interface. According to an embodiment, the camera 120 may correspond to a closed circuit television (CCTV) camera.
도 2는 본 개시의 일 실시예에 따른 물건 부피 측정 장치의 구조를 나타낸 도면이다.2 is a view showing the structure of an object volume measurement apparatus according to an embodiment of the present disclosure.
물건 부피 측정 장치(100)는 입력 인터페이스(210), 프로세서(220), 출력 인터페이스(230), 및 메모리(240)를 포함한다. The object volume measurement apparatus 100 includes an input interface 210 , a processor 220 , an output interface 230 , and a memory 240 .
입력 인터페이스(210)는 규격 용기를 촬영하는 적어도 하나의 카메라로부터 촬영된 입력 영상을 수신한다. 일 실시예에 따르면, 물건 부피 측정 장치(100)는 물건 부피 측정 장치(100) 내에 카메라를 구비할 수 있다. 이러한 경우, 입력 인터페이스(210)는 물건 부피 측정 장치(100)에 내장된 카메라로부터 입력 영상을 수신한다. 다른 실시예에 따르면, 물건 부피 측정 장치(100)는 물건 부피 측정 장치(100) 외부에 배치된 카메라와 연결되어, 입력 인터페이스(210)를 통해 입력 영상을 수신할 수 있다. 이러한 경우, 카메라는 규격 용기를 촬영하여, 촬영된 영상 데이터를 물건 부피 측정 장치(100)로 전송한다. 카메라는 규격 용기를 촬영하도록 FOV(Field of View)가 설정되어 배치된다. 일 실시예에 따르면, 카메라는 기존의 CCTV 카메라에 대응될 수 있다. The input interface 210 receives an input image photographed from at least one camera for photographing a standard container. According to an embodiment, the object volume measuring apparatus 100 may include a camera in the object volume measuring apparatus 100 . In this case, the input interface 210 receives an input image from a camera built in the object volume measurement apparatus 100 . According to another embodiment, the object volume measurement apparatus 100 may be connected to a camera disposed outside the object volume measurement apparatus 100 to receive an input image through the input interface 210 . In this case, the camera photographs the standard container and transmits the photographed image data to the object volume measurement apparatus 100 . The camera is placed with a Field of View (FOV) set to photograph the standard container. According to an embodiment, the camera may correspond to an existing CCTV camera.
입력 인터페이스(210)는 카메라로부터 영상 데이터를 수신하기 위한 소정 규격의 입력 장치, 또는 통신부에 대응될 수 있다. 입력 인터페이스(210)는 입력된 영상 데이터를 프로세서(220) 또는 메모리(240)로 전달한다. 입력된 영상 데이터는 입력 영상에 대응된다. 프로세서(220)는 메모리(240)에 저장된 입력 영상을 읽어 들일 수 있다.The input interface 210 may correspond to an input device of a predetermined standard for receiving image data from a camera or a communication unit. The input interface 210 transmits the input image data to the processor 220 or the memory 240 . The input image data corresponds to the input image. The processor 220 may read the input image stored in the memory 240 .
프로세서(220)는 물건 부피 측정 장치(100) 전반의 동작을 제어한다. 프로세서(220)는 하나 또는 그 이상의 프로세서로 구현될 수 있다. 프로세서(220)는 메모리에 저장된 인스트럭션 또는 커맨드를 실행하여 소정의 동작을 수행할 수 있다. The processor 220 controls the overall operation of the object volume measuring apparatus 100 . The processor 220 may be implemented with one or more processors. The processor 220 may execute an instruction or a command stored in the memory to perform a predetermined operation.
프로세서(220)는 입력 영상으로부터 규격 용기에 대응하는 규격 용기 영역을 검출한다. 프로세서(220)는 비주얼 태그를 검출하는 방식, 또는 YOLO(You only Look Once) 등의 객체 검출 알고리즘을 이용하는 방식을 이용하여 입력 영상으로부터 규격 용기에 대응하는 규격 용기 영역을 검출할 수 있다.The processor 220 detects the standard container area corresponding to the standard container from the input image. The processor 220 may detect the standard container area corresponding to the standard container from the input image using a method of detecting a visual tag or a method using an object detection algorithm such as You Only Look Once (YOLO).
일 실시예에 따르면, 프로세서(220)는 검출된 규격 용기에 대응하는 용기 식별자를 획득한다. 일 실시예에 따르면, 용기 식별자는 비주얼 태그를 이용하여 획득될 수 있다. 다른 실시예에 따르면, 용기 식별자는 규격 용기에 기재된 용기 식별자를 문자 인식 알고리즘 또는 패턴 인식 알고리즘 등을 이용하여 인식하여 획득될 수 있다. According to an embodiment, the processor 220 obtains a container identifier corresponding to the detected standard container. According to one embodiment, the container identifier may be obtained using a visual tag. According to another embodiment, the container identifier may be obtained by recognizing the container identifier described in the standard container using a character recognition algorithm or a pattern recognition algorithm.
또한, 프로세서(220)는 용기 식별자에 기초하여 규격 용기에 담겨진 물건에 대한 정보인 물건 정보를 획득할 수 있다. 프로세서(220)는 메모리를 더 포함하고, 메모리에 각 용기 식별자에 대응하는 물건 정보를 저장할 수 있다. 물건 정보는 제품명, 제품 카테고리, 제조업자, 판매원, 제조번호, 사용기한, 유효성분, 또는 저장 방법 중 적어도 하나 또는 이들의 조합을 포함할 수 있다. 프로세서(220)는 획득된 용기 식별자 및 메모리에 저장된 물건 정보에 기초하여, 획득된 용기 식별자에 대응하는 물건 정보를 획득할 수 있다. 다른 예로서, 프로세서(220)는 클라우드 서버 등 외부의 데이터베이스를 이용하여, 용기 식별자에 대응하는 물건 정보를 획득할 수 있다. In addition, the processor 220 may acquire object information, which is information about an object contained in a standard container, based on the container identifier. The processor 220 may further include a memory, and store object information corresponding to each container identifier in the memory. The product information may include at least one of a product name, a product category, a manufacturer, a salesperson, a serial number, an expiration date, an active ingredient, and a storage method, or a combination thereof. The processor 220 may acquire object information corresponding to the obtained container identifier based on the obtained container identifier and the object information stored in the memory. As another example, the processor 220 may acquire object information corresponding to the container identifier by using an external database such as a cloud server.
또한, 프로세서(220)는 규격 용기 영역의 영상으로부터 규격 용기의 벽면에 대응하는 용기 벽면 영역과, 물건에 대응하는 물건 영역을 인식한다. 프로세서(220)는 제1 기계 학습 모델을 이용하여, 용기 벽면 영역과 물건 영역을 인식할 수 있다. In addition, the processor 220 recognizes the container wall area corresponding to the wall surface of the standard container and the object area corresponding to the object from the image of the standard container area. The processor 220 may recognize the container wall area and the object area using the first machine learning model.
다음으로, 프로세서(220)는 용기 벽면 영역과 물건 영역 각각의 픽셀 수를 산출하고, 물건 영역의 픽셀 비율을 산출한다. 프로세서(220)는 용기 벽면 영역과 물건 영역을 포함하는 전체 영역의 픽셀 수를 산출한다. 물건 영역의 픽셀 비율은 전체 영역의 픽셀 수에 대한 물건 영역의 픽셀 수의 비율에 대응한다. 픽셀 비율을 퍼센트로 정의될 수 있다. Next, the processor 220 calculates the number of pixels in each of the container wall area and the object area, and calculates the pixel ratio of the object area. The processor 220 calculates the number of pixels in the entire area including the container wall area and the object area. The pixel ratio of the object area corresponds to the ratio of the number of pixels of the object area to the number of pixels of the entire area. The pixel ratio can be defined as a percentage.
다음으로, 프로세서(220)는 물건 영역의 픽셀 비율에 기초하여 물건 부피 측정 값을 생성한다. 일 실시예에 따르면, 프로세서(220)는 픽셀 비율을 물건 부피 측정 값으로 정의할 수 있다. 다른 실시예에 따르면, 프로세서(220)는 픽셀 비율에 소정의 기준 값을 곱한 값을 물건 부피 측정 값으로 정의할 수 있다.Next, the processor 220 generates the object volume measurement value based on the pixel ratio of the object area. According to an embodiment, the processor 220 may define the pixel ratio as a measurement value of the object volume. According to another embodiment, the processor 220 may define a value obtained by multiplying a pixel ratio by a predetermined reference value as the object volume measurement value.
출력 인터페이스(230)는 프로세서(220)에서 생성된 부피 측정 값을 출력한다. 출력 인터페이스(230)는 예를 들면, 디스플레이, 오디오 스피커, 또는 통신부 등에 대응될 수 있다. The output interface 230 outputs the volume measurement value generated by the processor 220 . The output interface 230 may correspond to, for example, a display, an audio speaker, or a communication unit.
일 실시예에 따르면, 출력 인터페이스(230)는 용기 식별자와 물건 부피 값을 함께 출력한다. 다른 실시예에 따르면, 출력 인터페이스(230)는 용기 식별자, 물건 정보, 및 물건 부피 값을 함께 출력한다. According to an embodiment, the output interface 230 outputs the container identifier and the object volume value together. According to another embodiment, the output interface 230 outputs the container identifier, the object information, and the object volume value together.
메모리(240)는 물건 부피 측정 장치(100)의 동작에 필요한 데이터 및 명령어를 저장할 수 있다. 메모리(240)는 휘발성 저장 매체 또는 비휘발성 저장 매체 중 적어도 하나 또는 이들의 조합으로 구현될 수 있다. 메모리(240)는 다양한 형태의 저장매체로 구현될 수 있다. 메모리(240)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(RAM, Random Access Memory) SRAM(Static Random Access Memory), 롬(ROM, Read-Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다. 일 실시예에 따르면, 메모리(240)는 클라우드 저장공간에 대응될 수 있다. 예를 들면, 메모리(240)는 클라우드 서비스를 통해 구현될 수 있다.The memory 240 may store data and commands necessary for the operation of the object volume measuring apparatus 100 . The memory 240 may be implemented as at least one of a volatile storage medium and a non-volatile storage medium, or a combination thereof. The memory 240 may be implemented with various types of storage media. The memory 240 may include a flash memory type, a hard disk type, a multimedia card micro type, a card type memory (eg, SD or XD memory), and a RAM. (RAM, Random Access Memory) SRAM (Static Random Access Memory), ROM (Read-Only Memory), EEPROM (Electrically Erasable Programmable Read-Only Memory), PROM (Programmable Read-Only Memory), magnetic memory, magnetic disk , may include at least one type of storage medium among optical disks. According to an embodiment, the memory 240 may correspond to a cloud storage space. For example, the memory 240 may be implemented through a cloud service.
메모리(240)는 입력 영상, 용기 영역 영상, 및 중간 출력 영상 등을 저장할 수 있다.The memory 240 may store an input image, a container region image, and an intermediate output image.
도 3은 본 개시의 일 실시예에 따른 물건 부피 측정 방법을 나타낸 흐름도이다. 3 is a flowchart illustrating a method for measuring the volume of an object according to an embodiment of the present disclosure.
본 개시의 일 실시예에 다른 물건 부피 측정 방법의 각 단계들은 프로세서를 구비하는 다양한 형태의 전자 장치에 의해 수행될 수 있다. 본 개시는 본 개시의 실시예들에 따른 물건 부피 측정 장치(100)가 물건 부피 측정 방법을 수행하는 실시예를 중심으로 설명한다. 따라서 물건 부피 측정 장치(100)에 대해 설명된 실시예들은 물건 부피 측정 방법에 대한 실시예들에 적용 가능하고, 반대로 물건 부피 측정 방법에 대해 설명된 실시예들은 물건 부피 측정 장치(100)에 대한 실시예들에 적용 가능하다. 개시된 실시예들에 따른 물건 부피 측정 방법은 본 개시에 개시된 물건 부피 측정 장치(100)에 의해 수행되는 것으로 그 실시예가 한정되지 않고, 다양한 형태의 전자 장치에 의해 수행될 수 있다.Each step of the method for measuring the volume of an object according to an embodiment of the present disclosure may be performed by various types of electronic devices including a processor. The present disclosure will focus on an embodiment in which the object volume measurement apparatus 100 according to embodiments of the present disclosure performs the object volume measurement method. Therefore, the embodiments described with respect to the object volume measuring apparatus 100 are applicable to the embodiments of the object volume measuring method, and on the contrary, the embodiments described for the object volume measuring method are for the object volume measuring apparatus 100 . Applicable to the embodiments. The object volume measurement method according to the disclosed embodiments is not limited to being performed by the object volume measurement apparatus 100 disclosed in the present disclosure, and may be performed by various types of electronic devices.
단계 S302에서, 물건 부피 측정 장치(100)는 카메라에 의해 촬영된 입력 영상을 수신한다.In step S302, the object volume measurement apparatus 100 receives an input image captured by a camera.
다음으로 단계 S304에서, 물건 부피 측정 장치(100)는 입력 영상으로부터 규격 용기 영역을 검출한다. 일 실시예에 따르면, 물건 부피 측정 장치(100)는 입력 영상으로부터 비주얼 태그를 검출하고, 검출된 비주얼 태그에 기초하여 규격 용기 영역을 검출할 수 있다. 다른 실시예에 따르면, 물건 부피 측정 장치(100)는 기계학습 모델을 이용하여 입력 영상으로부터 규격 용기 영역을 검출할 수 있다.Next, in step S304, the object volume measurement apparatus 100 detects a standard container area from the input image. According to an embodiment, the object volume measuring apparatus 100 may detect a visual tag from an input image, and detect a standard container area based on the detected visual tag. According to another embodiment, the object volume measuring apparatus 100 may detect a standard container region from an input image using a machine learning model.
다음으로 단계 S306에서, 물건 부피 측정 장치(100)는 규격 용기 영역의 영상으로부터 규격 용기의 벽면에 대응하는 용기 벽면 영역과, 물건에 대응하는 물건 영역을 인식한다. 물건 부피 측정 장치(100)는 제1 기계 학습 모델을 이용하여, 용기 벽면 영역과 물건 영역을 인식할 수 있다. Next, in step S306 , the object volume measuring apparatus 100 recognizes the container wall area corresponding to the wall surface of the standard container and the object area corresponding to the object from the image of the standard container area. The object volume measuring apparatus 100 may recognize the container wall area and the object area using the first machine learning model.
다음으로, 단계 S308에서, 물건 부피 측정 장치(100)는 용기 벽면 영역과 물건 영역 각각의 픽셀 수를 산출하고, 물건 영역의 픽셀 비율을 산출한다. 물건 부피 측정 장치(100)는 용기 벽면 영역과 물건 영역을 포함하는 전체 영역의 픽셀 수를 산출한다. 물건 영역의 픽셀 비율은 전체 영역의 픽셀 수에 대한 물건 영역의 픽셀 수의 비율에 대응한다. 픽셀 비율을 퍼센트로 정의될 수 있다. Next, in step S308 , the object volume measuring apparatus 100 calculates the number of pixels in each of the container wall area and the object area, and calculates the pixel ratio of the object area. The object volume measuring apparatus 100 calculates the number of pixels in the entire area including the container wall area and the object area. The pixel ratio of the object area corresponds to the ratio of the number of pixels of the object area to the number of pixels of the entire area. The pixel ratio can be defined as a percentage.
다음으로, 단계 S310에서, 물건 부피 측정 장치(100)는 물건 영역의 픽셀 비율에 기초하여 물건 부피 측정 값을 생성한다. 일 실시예에 따르면, 물건 부피 측정 장치(100)는 픽셀 비율을 물건 부피 측정 값으로 정의할 수 있다. 다른 실시예에 따르면, 물건 부피 측정 장치(100)는 픽셀 비율에 소정의 기준 값을 곱한 값을 물건 부피 측정 값으로 정의할 수 있다.Next, in step S310 , the object volume measurement apparatus 100 generates an object volume measurement value based on the pixel ratio of the object area. According to an embodiment, the object volume measurement apparatus 100 may define a pixel ratio as an object volume measurement value. According to another embodiment, the object volume measurement apparatus 100 may define a value obtained by multiplying a pixel ratio by a predetermined reference value as the object volume measurement value.
도 4는 본 개시의 일 실시예에 따른 규격 용기를 나타낸 도면이다.4 is a view showing a standard container according to an embodiment of the present disclosure.
본 개시의 일 실시예에 따른 규격 용기(410, 420, 430)는 하나 또는 복수의 종류를 포함한다. 각 종류의 규격 용기(410, 420, 430)는 모양, 사이즈, 색깔 등이 다를 수 있다. 규격 용기(410, 420, 430)는 카메라에 의해 촬영되었을 때, 담겨진 물건이 보이도록 상면 및 전면 일부가 개방된 형태를 가질 수 있다. 또한, 규격 용기(410, 420, 430)는 서로 다른 사이즈의 복수의 종류를 갖고, 폭, 깊이, 및 높이에 의해 사이즈가 정의될 수 있다. Standard containers (410, 420, 430) according to an embodiment of the present disclosure include one or a plurality of types. Each type of standard container (410, 420, 430) may have a different shape, size, color, and the like. When the standard containers (410, 420, 430) are photographed by a camera, the upper surface and the front part may have an open shape so that the contained object is visible. In addition, the standard containers (410, 420, 430) have a plurality of types of different sizes, the size may be defined by the width, depth, and height.
규격 용기(410, 420, 430)는 다면체 형태를 가질 수 있다. 예를 들면, 규격 용기(410, 420, 430)는 도 4에 도시된 바와 같이 직육면체 형태를 가질 수 있다. 규격 용기(410, 420, 430)는 직육면체의 상면과 정면이 개방된 형태를 가질 수 있다.The standard containers 410 , 420 , 430 may have a polyhedral shape. For example, the standard containers (410, 420, 430) may have a rectangular parallelepiped shape as shown in FIG. Standard containers (410, 420, 430) may have a shape in which the upper surface and the front of the rectangular parallelepiped are open.
규격 용기(410, 420, 430)는 카메라에 의해 촬영되는 전면의 소정의 영역에 용기 식별자를 나타내는 정보를 나타내는 식별자 영역(440a, 440b, 440c)을 가질 수 있다. 식별자 영역(440a, 440b, 440c)은 비주얼 정보로 용기 식별자 정보를 나타내는 영역이다. 일 실시예에 따르면, 식별자 영역(440a, 440b, 440c)에 비주얼 태그가 배치된다. 비주얼 태그는 예를 들면 ARUCO Marker, QR(Quick Response) 코드, 바코드 등을 포함할 수 있다. 비주얼 태그는 해당 규격 용기에 대응되는 용기 식별자 정보, 물건 정보 등을 포함할 수 있다. 다른 실시예에 따르면, 식별자 영역(440a, 440b, 440c)은 문자, 패턴, 기호 등으로 표현될 수 있다. 문자, 패턴, 기호 등은 해당 규격 용기에 대응되는 용기 식별자 정보, 물건 정보 등을 나타낼 수 있다.The standard containers 410 , 420 , and 430 may have identifier regions 440a , 440b , and 440c indicating information indicating the container identifier in a predetermined region of the front surface photographed by the camera. The identifier areas 440a, 440b, and 440c are areas representing container identifier information as visual information. According to an embodiment, a visual tag is disposed in the identifier areas 440a, 440b, and 440c. The visual tag may include, for example, an ARUCO Marker, a Quick Response (QR) code, a barcode, and the like. The visual tag may include container identifier information corresponding to a corresponding standard container, object information, and the like. According to another embodiment, the identifier regions 440a, 440b, and 440c may be expressed as characters, patterns, symbols, or the like. Characters, patterns, symbols, etc. may represent container identifier information, object information, etc. corresponding to the corresponding standard container.
도 5는 본 개시의 일 실시예에 따라 비주얼 태그가 배치된 도면이다.5 is a diagram in which a visual tag is disposed according to an embodiment of the present disclosure.
본 개시의 일 실시예에 따르면, 규격 용기(110)의 전면의 식별자 영역에 용기 식별 태그(510)가 배치된다. 용기 식별 태그(510)는 비주얼 태그에 대응하는 구성이다. 용기 식별 태그(510)는 규격 용기(110)의 식별자 정보, 물건 정보 등을 포함한다. 예를 들면, 식별자 정보는 규격 용기(110)의 식별 번호를 나타낸다. 물건 정보는 예를 들면, 규격 용기(110)에 담겨있는 물건의 카테고리(예: 식품, 의류, 잡화 등), 제품 모델, 제품명 등에 대응할 수 있다. According to an embodiment of the present disclosure, the container identification tag 510 is disposed in the identifier area on the front of the standard container 110 . The container identification tag 510 is a configuration corresponding to the visual tag. The container identification tag 510 includes identifier information and object information of the standard container 110 . For example, the identifier information indicates the identification number of the standard container 110 . The object information may correspond to, for example, a category (eg, food, clothing, miscellaneous goods, etc.) of an object contained in the standard container 110 , a product model, a product name, and the like.
입력 영상이 동영상인 경우, 물건 부피 측정 장치(100)는 프레임으로부터 새로운 용기 식별 태그(510)가 검출되면, 새로운 규격 용기 영역을 정의한다. 일 실시예에 따르면, 물건 부피 측정 장치(100)는 새로운 용기 식별 태그가 검출된 것에 기초하여, S304, S306, S308, 및 S310 단계의 동작을 수행할 수 있다. 본 개시의 일 실시예에 따르면, 물건 부피 측정 시스템(10)은 카메라를 이동시키면서 창고 내의 규격 용기들을 순차적으로 촬영하면서, 창고 내의 재고를 전체적으로 파악할 수 있다.When the input image is a moving picture, when a new container identification tag 510 is detected from the frame, the object volume measurement apparatus 100 defines a new standard container area. According to an embodiment, the object volume measurement apparatus 100 may perform operations S304, S306, S308, and S310 based on the detection of the new container identification tag. According to an embodiment of the present disclosure, the object volume measurement system 10 may take stock of the warehouse as a whole while sequentially photographing standard containers in the warehouse while moving the camera.
일 실시예에 따르면, 물건 부피 측정 장치(100)는 동영상에 대응되는 입력 영상으로부터 용기 식별 태그(510)를 검출하고 저장한다. 예를 들면, 물건 부피 측정 장치(100)는 1초당 60프레임을 캡쳐하고, 캡쳐된 영상에서 식별된 용기 식별 태그(510)의 식별 번호를 저장할 수 있다. 다음으로, 물건 부피 측정 장치(100)는 저장된 용기 식별 태그(510)들 중 중복되지 않은 식별 번호를 새로운 프레임에서 검출한 경우, 검출된 새로운 식별 번호를 저장하고, 새로운 규격 용기에 대해 S304, S306, S308, 및 S310 단계의 동작을 수행한다. 물건 부피 측정 장치(100)는 입력 영상에 대해 상기 과정들을 반복하면서 각 규격 용기의 부피 측정 값을 획득한다.According to an embodiment, the object volume measurement apparatus 100 detects and stores the container identification tag 510 from an input image corresponding to the video. For example, the object volume measurement apparatus 100 may capture 60 frames per second and store the identification number of the container identification tag 510 identified in the captured image. Next, when the object volume measurement apparatus 100 detects a non-overlapping identification number among the stored container identification tags 510 in a new frame, stores the detected new identification number, and S304, S306 for a new standard container , S308, and S310 are performed. The object volume measurement apparatus 100 repeats the above process with respect to the input image, and acquires the volume measurement value of each standard container.
도 6은 본 개시의 일 실시예에 따른 비주얼 태그를 나타내는 도면이다.6 is a diagram illustrating a visual tag according to an embodiment of the present disclosure.
본 개시의 일 실시예에 따르면, 비주얼 태그(610a, 610b)는 도 6에 도시된 바와 같은 ARUCO 마커로 구현될 수 있다. ARUCO 마커는 2차원 비주얼 마커의 일종으로, n*n 크기의 2차원 비트 패턴과, 이를 둘러싸고 있는 검은색 테두리 영역으로 구성된다. 검은색 테두리 영역은 마커의 인식률을 향상시킨다. 내부의 2차원 비트 패턴은 흰색 셀과 검정색 셀의 조합으로 구성되고, 소정의 정보를 나타낸다. 본 개시의 일 실시예에 따르면, 용기 식별 태그(510)는 도 6과 같은 ARUCO 마커의 형태로 구현될 수 있다.According to an embodiment of the present disclosure, the visual tags 610a and 610b may be implemented as ARUCO markers as shown in FIG. 6 . ARUCO marker is a type of two-dimensional visual marker, and consists of a two-dimensional bit pattern of n*n size and a black border area surrounding it. The black border area improves the recognition rate of the marker. The two-dimensional bit pattern inside is composed of a combination of white cells and black cells, and represents predetermined information. According to an embodiment of the present disclosure, the container identification tag 510 may be implemented in the form of an ARUCO marker as shown in FIG. 6 .
도 7은 본 개시의 일 실시예에 따른 물건 부피 측정 방법의 흐름도를 나타낸 도면이다.7 is a diagram illustrating a flowchart of a method for measuring the volume of an object according to an embodiment of the present disclosure.
본 개시의 일 실시예에 따르면, 물건 부피 측정 방법은 입력 영상으로부터 부피 측정 값을 산출하는 과정에서, 도 3에서 설명된 처리 이외에 추가적인 영상 처리를 거칠 수 있다.According to an embodiment of the present disclosure, the object volume measurement method may perform additional image processing in addition to the processing described with reference to FIG. 3 in the process of calculating a volume measurement value from an input image.
우선, 물건 부피 측정 장치(100)는 단계 S702에서, 카메라에 의해 촬영된 입력 영상을 수신한다.First, the object volume measurement apparatus 100 receives an input image captured by a camera in step S702.
다음으로 단계 S704에서, 물건 부피 측정 장치(100)는 입력 영상을 흑백 스케일로 변환한다. 물건 부피 측정 장치(100)는 입력 영상의 픽셀 값을 소정의 기준 값을 이용하여, 흑색과 백색에 각각 대응하는 두 가지의 픽셀 값을 갖는 흑백 스케일 영상으로 변환한다. Next, in step S704 , the object volume measuring apparatus 100 converts the input image into a black and white scale. The object volume measuring apparatus 100 converts a pixel value of an input image into a black-and-white scale image having two pixel values corresponding to black and white, respectively, by using a predetermined reference value.
다음으로 단계 S706에서, 물건 부피 측정 장치(100)는 흑백 스케일 영상으로부터 규격 용기 영역을 검출한다. 일 실시예에 따르면, 물건 부피 측정 장치(100)는 입력 영상으로부터 비주얼 태그를 검출하고, 검출된 비주얼 태그에 기초하여 규격 용기 영역을 검출할 수 있다. 다른 실시예에 따르면, 물건 부피 측정 장치(100)는 기계학습 모델을 이용하여 입력 영상으로부터 규격 용기 영역을 검출할 수 있다.Next, in step S706, the object volume measurement apparatus 100 detects the standard container area from the black-and-white scale image. According to an embodiment, the object volume measuring apparatus 100 may detect a visual tag from an input image, and detect a standard container area based on the detected visual tag. According to another embodiment, the object volume measuring apparatus 100 may detect a standard container region from an input image using a machine learning model.
일 실시예에 따르면, 물건 부피 측정 장치(100)는 YOLO 모델을 이용하여 흑백 스케일 영상으로부터 규격 용기 영역을 검출한다. 도 8을 참고하여 규격 용기 영역을 검출하는 과정을 설명한다.According to an embodiment, the object volume measurement apparatus 100 detects a standard container area from a black-and-white scale image using the YOLO model. A process of detecting the standard container area will be described with reference to FIG. 8 .
도 8은 본 개시의 일 실시예에 따라, 흑백 스케일 영상으로부터 규격 용기 영역을 검출하는 과정을 나타낸 도면이다.8 is a diagram illustrating a process of detecting a standard container area from a black-and-white scale image, according to an embodiment of the present disclosure.
물건 부피 측정 장치(110)는 흑백 스케일 영상(810)을 객체 인식 모델(820) 에 입력한다. 객체 인식 모델(820)은 예를 들면, YOLO(You Only Look Once) 모델이다. 객체 인식 모델(820)은 복수의 노드 및 레이어를 포함하는 기계학습 모델에 대응될 수 있다. 객체 인식 모델(820)은 입력 영상으로부터 규격 용기(110)를 검출하고, 규격 용기(110)의 위치, 영역, 규격 용기에 대응할 확률을 출력하도록 학습된 YOLO 모델을 포함할 수 있다. The object volume measurement apparatus 110 inputs the black-and-white scale image 810 into the object recognition model 820 . The object recognition model 820 is, for example, a You Only Look Once (YOLO) model. The object recognition model 820 may correspond to a machine learning model including a plurality of nodes and layers. The object recognition model 820 may include a YOLO model trained to detect the standard container 110 from the input image and output the position, area, and probability of corresponding to the standard container 110 of the standard container 110 .
YOLO는 CNN (Convolutional Neural Network)기반의 딥러닝 프레임워크이다. YOLO의 객체 인식(Object Recognition)은 사진으로부터 사전에 교육된 물체를 인식하면 총 4개의 위치 정보를 남기게 된다. 4개의 위치 정보는 인식된 물체의 x좌표, y좌표, 너비, 및 높이를 포함한다. 4가지의 위치 정보를 토대로 어떠한 객체가 인식이 되었는지 YOLO를 통해 직사각형(832)과 텍스트(834)로 표현할 수 있다. YOLO is a deep learning framework based on CNN (Convolutional Neural Network). YOLO's Object Recognition leaves a total of 4 positional information when recognizing an object trained in advance from a photo. The four positional information includes an x-coordinate, a y-coordinate, a width, and a height of the recognized object. What kind of object is recognized based on the four pieces of location information can be expressed as a rectangle 832 and text 834 through YOLO.
본 개시의 일 실시예에 따르면, YOLO를 통해 규격 용기(110)을 인식할 수 있는 하나의 모델이 제작된다. 이 모델은 다른 물체는 인식할 수 없으며, 오직 입력된 흑백 스케일 영상(810)으로부터 규격 용기(110)를 찾아 4개의 위치 정보를 얻는데 사용된다.According to an embodiment of the present disclosure, one model capable of recognizing the standard container 110 through YOLO is manufactured. This model cannot recognize other objects, and is only used to find the standard container 110 from the input black-and-white scale image 810 to obtain four positional information.
YOLO 모델을 이용한 객체 인식 모델(820)은 앞서 설명한 4개의 위치 정보를 출력한다. 일 실시예에 따르면, 객체 인식 모델(820)은 흑백 스케일 영상(810)에 4개의 위치 정보를 오버레이한 객체 인식 영상(830)을 출력한다. 객체 인식 영상(830)은 규격 용기 영역을 나타내는 박스(832) 및 규격 용기임을 나타내느 인디케이터(834)를 포함한다. 규격 용기임을 나타내는 인디케이터(834)는 박스(832)에 대응하는 영역이 규격 용기(110)에 대응할 확률을 포함할 수 있다.The object recognition model 820 using the YOLO model outputs the above-described four pieces of location information. According to an embodiment, the object recognition model 820 outputs an object recognition image 830 in which four pieces of location information are overlaid on a black-and-white scale image 810 . The object recognition image 830 includes a box 832 indicating a standard container area and an indicator 834 indicating a standard container. The indicator 834 indicating the standard container may include a probability that the area corresponding to the box 832 corresponds to the standard container 110 .
본 개시의 일 실시예에 따르면, 객체 인식 모델(820)은 규격 용기(110)에 대응하는 규격 용기 영역만 포함하도록 흑백 스케일 영상(810)을 크롭하여, 규격 용기 영역 영상을 생성하여 출력할 수 있다.According to an embodiment of the present disclosure, the object recognition model 820 may crop the black-and-white scale image 810 to include only the standard container area corresponding to the standard container 110 to generate and output the standard container area image. have.
다시 도 7을 참조하여 다음 단계를 설명한다.Referring again to FIG. 7, the next step will be described.
다음으로 단계 S708에서, 물건 부피 측정 장치(100)는 배경 제거 처리를 수행한다. 도 9를 참조하여, 배경 제거 처리 과정을 설명한다.Next, in step S708, the object volume measurement apparatus 100 performs a background removal process. Referring to FIG. 9 , a background removal processing process will be described.
도 9는 본 개시의 일 실시예에 따른 배경 제거 처리 과정을 나타낸 도면이다.9 is a diagram illustrating a background removal process according to an embodiment of the present disclosure.
물건 부피 측정 장치(100)는 객체 인식 영상(830)을 배경 제거 모듈(910)에 입력한다. 배경 제거 모듈(910)은 객체 인식 영상(830)에서 규격 용기(110)에 해당하는 영역을 제외한 배경을 제거한 배경 제거 영상(920)을 생성하여 출력한다. The object volume measurement apparatus 100 inputs the object recognition image 830 to the background removal module 910 . The background removal module 910 generates and outputs the background removal image 920 in which the background is removed from the object recognition image 830 except for the area corresponding to the standard container 110 .
일 실시예에 따르면, 배경 제거 모듈 (910)은 Graph-cut 알고리즘을 포함한다. Graph-cut은 대표적인 배경 제거 알고리즘 중 하나이다. 한 사진의 배경을 제거하기 위해서는, 전경 또는 관심 객체를 먼저 선택해야 하는데 이를 ROI(Region of Interest)라고 표현한다. YOLO로부터 받아온 4개의 위치 정보가 이 ROI를 구성하는데 쓰이게 되며, Graph-cut 알고리즘은 ROI의 외부 픽셀과 내부 픽셀을 전경 또는 배경으로 표시하게 된다. 이때 기본적인 Graph-cut 알고리즘의 클러스터링 작업이 사용되며, 전경으로 클러스터링 된 픽셀들은 색을 남겨놓고, 배경으로 클러스터링 된 픽셀들의 색은 모두 검정색으로 변경된다.According to an embodiment, the background removal module 910 includes a Graph-cut algorithm. Graph-cut is one of the representative background removal algorithms. In order to remove the background of a photo, the foreground or object of interest must be selected first, and this is referred to as ROI (Region of Interest). The four positional information received from YOLO is used to construct this ROI, and the graph-cut algorithm displays the outer and inner pixels of the ROI as foreground or background. At this time, the clustering operation of the basic graph-cut algorithm is used, the pixels clustered in the foreground are left in color, and the colors of the pixels clustered in the background are all changed to black.
배경 제거 모듈 (910)은 배경 제거 영상(920)을 출력한다. 일 실시예에 따르면, 배경 제거 영상(920)은 객체 인식 모델(820)에 의해 생성된 박스(832) 및 인디케이터(834)를 포함할 수 있다.The background removal module 910 outputs a background removal image 920 . According to an embodiment, the background removal image 920 may include a box 832 and an indicator 834 generated by the object recognition model 820 .
다시 도 7을 참조하여 다음 단계를 설명한다.Referring again to FIG. 7, the next step will be described.
다음으로 단계 S710에서, 물건 부피 측정 장치(100)는 배경 제거 영상(920)으로부터 규격 용기의 벽면에 대응하는 용기 벽면 영역과, 물건에 대응하는 물건 영역을 인식한다. 물건 부피 측정 장치(100)는 제1 기계 학습 모델을 이용하여, 용기 벽면 영역과 물건 영역을 인식할 수 있다. 물건 부피 측정 장치(100)는 용기 벽면 영역과 물건 영역이 인식된 제1 출력 영상을 생성한다. 도 10을 이용하여, 단계 S710의 동작을 자세히 설명한다.Next, in step S710 , the object volume measuring apparatus 100 recognizes the container wall area corresponding to the wall surface of the standard container and the object area corresponding to the object from the background removal image 920 . The object volume measuring apparatus 100 may recognize the container wall area and the object area using the first machine learning model. The object volume measuring apparatus 100 generates a first output image in which the container wall area and the object area are recognized. The operation of step S710 will be described in detail with reference to FIG. 10 .
도 10은 본 개시의 일 실시예에 따라 배경 제거 영상으로부터 제1 출력 영상을 생성하는 과정을 나타낸 도면이다.10 is a diagram illustrating a process of generating a first output image from a background removal image according to an embodiment of the present disclosure.
물건 부피 측정 장치(100)는 배경 제거 영상(1010)을 제1 기계학습 모델(1020)에 입력하여, 물건 영역과 용기 영역이 분리된 제1 출력 영상(1030)을 생성한다. The object volume measuring apparatus 100 generates a first output image 1030 in which the object area and the container area are separated by inputting the background removal image 1010 to the first machine learning model 1020 .
배경 제거 영상(1010)은 앞서 도 9에서 설명한 배경 제거 영상(920)으로부터 박스(832) 및 인디케이터(834)를 제거한 영상이다. 제1 기계 학습 모델(1020)은 배경 제거 영상(1010)을 입력받아 배경 제거 영상(1010)으로부터 객체를 인식하고 분류한다.The background removal image 1010 is an image in which the box 832 and the indicator 834 are removed from the background removal image 920 described with reference to FIG. 9 . The first machine learning model 1020 receives the background removal image 1010 and recognizes and classifies an object from the background removal image 1010 .
제1 기계학습 모델(1020)은 Semantic Segmentation 모델을 포함한다. Semantic Segmentation 모델의 출력은 규격 용기(110) 내부의 물건과 용기 벽면을 다른 색으로 표시한 영상이다.The first machine learning model 1020 includes a semantic segmentation model. The output of the Semantic Segmentation model is an image in which the object inside the standard container 110 and the wall of the container are displayed in different colors.
Semantic segmentation 모델은 이미지 내에 있는 물체들을 의미 있는 단위로 분할하는 기계학습 모델이다. Semantic segmentation 모델은 영상의 각 픽셀이 어느 클래스에 속하는지 예측한다. 본 개시의 일 실시예에 따르면, Semantic segmentation 모델은 규격 용기(110) 내부의 물건과 용기 벽면을 클래스로 정의하고, Semantic segmentation 모델에 입력되는 영상으로부터 물건과 용기 벽면으로 각 픽셀을 구별한다.Semantic segmentation model is a machine learning model that divides objects in an image into meaningful units. Semantic segmentation model predicts which class each pixel of an image belongs to. According to an embodiment of the present disclosure, the semantic segmentation model defines the object and the container wall inside the standard container 110 as classes, and distinguishes each pixel from the image input to the semantic segmentation model into the object and the container wall.
Semantic segmentation 모델은 CNN(Convolutional neural neetwork) 모델을 이용한다. Semantic segmentation 모델은 각 픽셀의 예측된 클래스를 나타내는 segmentation map을 생성하여 출력할 수 있다.The semantic segmentation model uses a convolutional neural network (CNN) model. The semantic segmentation model can generate and output a segmentation map indicating the predicted class of each pixel.
Semantic segmentation 모델은 물건 영역과 용기 벽면 영역이 다른 색을로 표시된 제1 출력 영상(1030)을 생성한다.The semantic segmentation model generates a first output image 1030 in which an object region and a container wall region are displayed in different colors.
다시 도 7을 참조하여 다음 단계를 설명한다.Referring again to FIG. 7, the next step will be described.
다음으로 단계 S712에서, 물건 부피 측정 장치(100)는 용기 벽면 영역과 물건 영역 각각의 픽셀 수를 산출하고, 물건 영역의 픽셀 비율을 산출한다. 물건 부피 측정 장치(100)는 제1 출력 영상(1030)으로부터 용기 벽면 영역과 물건 영역 각각의 픽셀 수를 산출한다. 물건 부피 측정 장치(100)는 용기 벽면 영역과 물건 영역을 포함하는 전체 영역의 픽셀 수를 산출한다. 물건 영역의 픽셀 비율은 전체 영역의 픽셀 수에 대한 물건 영역의 픽셀 수의 비율에 대응한다. 픽셀 비율을 퍼센트로 정의될 수 있다. Next, in step S712 , the object volume measuring apparatus 100 calculates the number of pixels in each of the container wall area and the object area, and calculates the pixel ratio of the object area. The object volume measuring apparatus 100 calculates the number of pixels in each of the container wall area and the object area from the first output image 1030 . The object volume measuring apparatus 100 calculates the number of pixels in the entire area including the container wall area and the object area. The pixel ratio of the object area corresponds to the ratio of the number of pixels of the object area to the number of pixels of the entire area. The pixel ratio can be defined as a percentage.
본 개시의 일 실시예에 따르면, 물건 부피 측정 장치(100)는 각각의 용기 벽면에 다른 가중치를 적용하여, 용기 벽면 영역과 물건 영역 각각의 픽셀 수를 산출할 수 있다. 도 11을 참조하여, 본 개시의 일 실시예에 따라 물건의 부피를 계산하는 과정을 자세히 설명한다.According to an embodiment of the present disclosure, the object volume measuring apparatus 100 may calculate the number of pixels in each of the container wall area and the object area by applying different weights to the respective container wall surfaces. A process of calculating the volume of an object according to an embodiment of the present disclosure will be described in detail with reference to FIG. 11 .
도 11은 본 개시의 일 실시예에 따라, 규격 용기에 담긴 물건의 부피를 산출하는 과정을 나타낸 도면이다.11 is a diagram illustrating a process of calculating the volume of an object contained in a standard container, according to an embodiment of the present disclosure.
Semantic Segmentation 모델의 최종 결과물은 규격 용기(110) 내부의 물건과 용기 벽면을 2개의 색으로 표시한 제1 출력 영상(1030)이다. 최종 결과물로 나온 사진을 통해 각 색에 해당하는 픽셀의 개수를 파악한다. 용기 벽면 영역의 픽셀의 개수를 a개, 물건 영역의 픽셀 개수를 b개라고 표현한다면, 수학식 1을 통해 가장 기본적인 물건 영역의 픽셀 비율을 산출할 수 있다.The final result of the semantic segmentation model is the first output image 1030 in which the object inside the standard container 110 and the container wall are displayed in two colors. The number of pixels corresponding to each color is determined from the final photo. If the number of pixels in the container wall area is a and the number of pixels in the object area is b, the pixel ratio of the most basic object area can be calculated through Equation 1.
[수학식 1][Equation 1]
Figure PCTKR2021017807-appb-I000001
Figure PCTKR2021017807-appb-I000001
R = 물건 영역의 픽셀 비율R = percentage of pixels in the object area
b = 물건 영역의 전체 픽셀 개수b = total number of pixels in the object area
c = 용기 벽면 영역의 전체 픽셀 개수c = total number of pixels in the area of the vessel wall
본 개시의 일 실시예에 따르면, 용기 벽면 영역의 픽셀을 총 4개의 영역(1121, 1122, 1123, 1124)으로 나누고, 각 영역(1121, 1122, 1123, 1124)마다 서로 다른 영역 가중치를 부여한다. 영역 가중치는 0과 1의 사이 값을 갖는다. 본 개시의 일 실시예에 다르면, 직육면체 형태의 규격 용기(110)의 각 벽면의 가중치는, 양 측면, 정면, 및 하면 순서로 증가할 수 있다. 영역 가중치는 입력 영상에서 나타나는 그림자를 보정하기 위한 것이다. 그런데 카메라로 규격 용기(110)를 정면에서 사선 방향으로 촬영하는 경우, 물건이 하면을 덮고 있는 상태에서 양 측면에 그림자가 가장 많이 발생하고, 그 다음 정면에 그림자가 많이 발생하며, 하면에는 그림자가 발생하지 않는다. 따라서 본 개시의 일 실시예는 이러한 그림자의 특성을 반영하여 각 벽면의 가중치를 양 측면, 정면, 및 하면 순서로 증가시킨다.According to an embodiment of the present disclosure, the pixels of the container wall region are divided into a total of four regions 1121, 1122, 1123, and 1124, and different region weights are given to each region 1121, 1122, 1123, and 1124. . The region weight has a value between 0 and 1. According to an embodiment of the present disclosure, the weight of each wall surface of the standard container 110 of the rectangular parallelepiped shape may increase in the order of both sides, the front side, and the bottom side. The area weight is used to correct shadows appearing in the input image. However, when the standard container 110 is photographed in an oblique direction from the front with the camera, shadows occur most on both sides in a state where the object covers the lower surface, and then a lot of shadows occur on the front side, and a shadow is formed on the lower surface. doesn't happen Accordingly, an embodiment of the present disclosure increases the weight of each wall surface in the order of both sides, the front side, and the bottom side by reflecting the characteristics of the shadow.
예를 들면, 규격 용기(110) 내부의 물건 영역의 픽셀 개수 b를 5000개라고 가정하자. 5000개 중 제1 영역(1121)에 속한 픽셀의 개수는 800개, 제2 영역(1122)에 속한 픽셀의 개수는 700개, 제3 영역(1123)에 속한 픽셀의 개수는 950개, 제4 영역(1124)에 속한 픽셀의 개수는 2450개이다. 제1 영역(1121)과 제3 영역(1123)의 영역 가중치는 0.7, 제2 영역(1122)의 영역 가중치는 0.8, 제4 영역(1124)의 영역 가중치는 1로 정의된다. 제1 영역(1121)의 픽셀 개수에 0.7을 곱하고, 제2 영역(1122)의 픽셀 개수에 0.8을 곱하고, 제3 영역(1123)의 픽셀 개수에 0.7을 곱하고, 제4 영역(1124)의 픽셀 개수에 1을 곱한 후, 가중치가 곱해진 4개 영역의 픽셀 개수를 합산한다. 본 예시에 따르면, 가중치가 곱해진 픽셀 개수의 합산 값은 4340개이다. 이러한 경우, 앞서 수학식 1을 이용하여 산출한 물건 영역의 픽셀 비율에 대해 영역 가중치가 곱해진 픽셀 개수를 이용한 픽셀 비율에 대략 13%의 Adjustment가 적용되었다.For example, it is assumed that the number of pixels b of the object area inside the standard container 110 is 5000. Among the 5000, the number of pixels belonging to the first area 1121 is 800, the number of pixels belonging to the second area 1122 is 700, the number of pixels belonging to the third area 1123 is 950, and the number of pixels belonging to the third area 1123 is 950. The number of pixels belonging to the region 1124 is 2450. The region weight of the first region 1121 and the third region 1123 is defined as 0.7, the region weight of the second region 1122 is 0.8, and the region weight of the fourth region 1124 is defined as 1. The number of pixels in the first region 1121 is multiplied by 0.7, the number of pixels in the second region 1122 is multiplied by 0.8, the number of pixels in the third region 1123 is multiplied by 0.7, and the pixels in the fourth region 1124 are multiplied by 0.7. After multiplying the number by 1, the number of pixels in the four areas multiplied by the weight is summed. According to this example, the sum of the number of pixels multiplied by the weight is 4340. In this case, an adjustment of approximately 13% was applied to the pixel ratio using the number of pixels multiplied by the area weight to the pixel ratio of the object area calculated using Equation 1 above.
도 12를 이용하여 영역 가중치를 적용하는 이유를 설명한다.The reason for applying the region weight will be described with reference to FIG. 12 .
도 12는 본 개시의 일 실시예에 따른 제1 기계학습 모델의 출력을 나타낸 도면이다.12 is a diagram illustrating an output of a first machine learning model according to an embodiment of the present disclosure.
영역 가중치가 있어야 하는 이유는, 규격 용기(110) 자체의 빛 반사로 인해 그림자가 생기기 때문이다. 본 개시의 일 실시예에 따라 Sementic Segmentation 모델에 영상을 입력하면, 각 픽셀을 분류한 제1 출력 영상(1210)에서 그림자로 인해 생기는 오차가 발생한다. 예를 들면, 도 12의 제1 출력 영상(1210)에서 1220, 1222, 1224 영역은 그림자로 인해 발생한 오차에 해당하는 영역이다. 1220, 1222, 1224 영역은 규격 용기(110)의 용기 벽면 영역에 대응하는 부분을 일부 포함하는데, 그림자로 인해 물건 영역으로 잘못 인식된 픽셀을 포함한다.The reason why there should be an area weight is because a shadow is generated due to light reflection of the standard container 110 itself. When an image is input to the segmentic segmentation model according to an embodiment of the present disclosure, an error caused by a shadow occurs in the first output image 1210 in which each pixel is classified. For example, in the first output image 1210 of FIG. 12 , regions 1220 , 1222 , and 1224 are regions corresponding to errors caused by shadows. Areas 1220 , 1222 , and 1224 partially include a portion corresponding to the container wall area of the standard container 110 , and include pixels incorrectly recognized as object areas due to shadows.
Sementic Segmentation 모델은 규격 용기(110) 내부 물건에 그림자가 함께 있으면 같은 객체로 표시한다. 본 개시의 일 실시예에 따르면, 부피 계산 모듈(1110)은 그림자에 대한 가중치를 총 4개의 영역으로 나누어 준다. 각 영역의 영역 가중치는 그림자가 가장 많이 생기는 측면, 즉 제1 영역(1121) 및 제3 영역(1123)은 낮게 설정된다. 제1 영역(1121) 및 제3 영역(1123)보다 그림자의 영향이 적은 제2 영역(1122)은 제1 영역(1121) 및 제3 영역(1123)보다 높게 설정된다. 그림자의 영향이 아예 없는 제4 영역(1124)은 픽셀 개수를 그대로 반영하기 위해 1의 가중치가 적용된다.In the Sementic Segmentation model, if the object inside the standard container 110 has a shadow, it is displayed as the same object. According to an embodiment of the present disclosure, the volume calculation module 1110 divides the weight for the shadow into a total of four regions. The area weight of each area is set to be low in the side where shadows occur the most, that is, the first area 1121 and the third area 1123 . The second area 1122 having less shadow than the first area 1121 and the third area 1123 is set higher than the first area 1121 and the third area 1123 . A weight of 1 is applied to the fourth area 1124 , which is not affected by shadows, in order to reflect the number of pixels as it is.
부피 계산 모듈(1110)은 물건 영역의 픽셀 개수와 픽셀의 위치를 입력으로 받아 4개의 영역으로 분할한다. 부피 계산 모듈(1110)은 제1 출력 영상을로부터 4개의 영역 각각의 물건 영역의 픽셀 수를 출력하는 베타 함수를 이용할 수 있다. 또한, 각 영역의 물건 영역의 픽셀 개수에 각각의 영역 가중치를 곱하여 가중치가 적용된 물건 영역의 픽셀 개수의 합을 출력한다.The volume calculation module 1110 receives the number of pixels and positions of pixels in the object area as inputs, and divides it into four areas. The volume calculation module 1110 may use a beta function that outputs the number of pixels of the object area in each of the four areas from the first output image. In addition, the number of pixels in the object area of each area is multiplied by the weight of each area to output the sum of the number of pixels in the object area to which the weight is applied.
부피 계산 모듈(1110)은 수학식 2를 이용하여, 가중치가 적용된 물건 영역의 픽셀 비율을 산출한다.The volume calculation module 1110 calculates the pixel ratio of the weighted object area by using Equation (2).
[수학식 2][Equation 2]
Figure PCTKR2021017807-appb-I000002
Figure PCTKR2021017807-appb-I000002
R = 물건 영역의 픽셀 비율R = percentage of pixels in the object area
c = 가중치가 적용된 제1 영역의 물건 영역의 픽셀 수c = number of pixels in the object area in the first area weighted
d = 가중치가 적용된 제2 영역의 물건 영역의 픽셀 수 d = number of pixels in the object area in the second area weighted
e = 가중치가 적용된 제3 영역의 물건 영역의 픽셀 수e = number of pixels in the object area in the third area weighted
f = 가중치가 적용된 제4 영역의 물건 영역의 픽셀 수f = number of pixels in the object area of the fourth area weighted
a = 벽면 영역의 픽셀 개수a = number of pixels in the wall area
예를 들어, 규격 용기(110) 내부의 물건 영역의 픽셀 개수 b가 5000개라고 가정하자. 5000개 중 제1 영역(1121)에 속한 픽셀의 개수는 800개, 제2 영역(1122)에 속한 픽셀의 개수는 700개, 제3 영역(1123)에 속한 픽셀의 개수는 950개, 제4 영역(1124)에 속한 픽셀의 개수는 2450개이다. 벽면 영역의 픽셀 개수인 a 값은 5200개이다. 제1 영역(1121)과 제3 영역(1123)의 영역 가중치는 0.7, 제2 영역(1122)의 영역 가중치는 0.8, 제4 영역(1124)의 영역 가중치는 1로 정의된다. 이러한 경우, 수학식 2를 이용하여 물건 영역의 픽셀 비율을 산출하면 수학식 3과 같이 계산된다.For example, it is assumed that the number of pixels b of the object area inside the standard container 110 is 5000. Among the 5000, the number of pixels belonging to the first area 1121 is 800, the number of pixels belonging to the second area 1122 is 700, the number of pixels belonging to the third area 1123 is 950, and the number of pixels belonging to the third area 1123 is 950. The number of pixels belonging to the region 1124 is 2450. The value of a, which is the number of pixels in the wall area, is 5200. The region weight of the first region 1121 and the third region 1123 is defined as 0.7, the region weight of the second region 1122 is 0.8, and the region weight of the fourth region 1124 is defined as 1. In this case, when the pixel ratio of the object area is calculated using Equation 2, it is calculated as in Equation 3.
[수학식 3][Equation 3]
Figure PCTKR2021017807-appb-I000003
Figure PCTKR2021017807-appb-I000003
이러한 경우, R 값은 45.59%이다.In this case, the R value is 45.59%.
다시 도 7을 참고하여 다음 단계를 설명한다.The next step will be described with reference to FIG. 7 again.
다음으로, 단계 S714에서, 물건 부피 측정 장치(100)는 물건 영역의 픽셀 비율에 기초하여 부피 측정 값을 생성한다. 일 실시예에 따르면, 물건 부피 측정 장치(100)는 물건 영역의 픽셀 비율을 부피 측정 값으로 정의할 수 있다. 물건 영역의 픽셀 비율은 앞서 설명한 수학식 1의 R값 또는 수학식 2의 R값에 대응될 수 있다. 다른 실시예에 따르면, 물건 부피 측정 장치(100)는 물건 영역의 픽셀 비율에 소정의 기준 값을 곱한 값을 물건 부피 측정 값으로 정의할 수 있다. 본 개시의 일 실시예에 따르면, 소정의 기준 값은 규격 용기(110)에 물건이 가득 담겼을 때의 부피 값에 대응할 수 있다.Next, in step S714 , the object volume measurement apparatus 100 generates a volume measurement value based on the pixel ratio of the object area. According to an embodiment, the object volume measurement apparatus 100 may define a pixel ratio of the object area as a volume measurement value. The pixel ratio of the object area may correspond to the R value of Equation 1 or the R value of Equation 2 described above. According to another embodiment, the object volume measurement apparatus 100 may define a value obtained by multiplying the pixel ratio of the object area by a predetermined reference value as the object volume measurement value. According to an embodiment of the present disclosure, the predetermined reference value may correspond to a volume value when the standard container 110 is filled with an object.
도 13은 본 개시의 다른 실시예에 따른 프로세서의 구조를 나타낸 도면이다. 13 is a diagram illustrating a structure of a processor according to another embodiment of the present disclosure.
프로세서(220)는 흑백 변환 모듈(1310), 객체 인식 모델(820), 배경 제거 모듈(910), 제1 기계학습 모델(1020), 및 부피 계산 모듈(1110)을 포함한다. 프로세서(220) 내의 각 블록은 소프트웨어 모듈 또는 하드웨어 모듈에 대응되거나, 소프트웨어 모듈과 하드웨어 모듈의 조합에 대응된다. 따라서 프로세서(220) 내의 각 블록의 구조에 의해 본 개시의 실시예가 제한되지 않으며, 프로세서(220) 내의 각 블록은 서로 합쳐지거나, 하나의 블록이 복수의 블록으로 분리되는 것도 가능하다.The processor 220 includes a black-and-white conversion module 1310 , an object recognition model 820 , a background removal module 910 , a first machine learning model 1020 , and a volume calculation module 1110 . Each block in the processor 220 corresponds to a software module, a hardware module, or a combination of a software module and a hardware module. Therefore, the embodiment of the present disclosure is not limited by the structure of each block in the processor 220 , and each block in the processor 220 may be combined with each other, or one block may be divided into a plurality of blocks.
도 13의 각 모듈의 동작은 도 7에서 설명한 각 단계들의 동작과 유사하기 때문에, 중복된 설명을 피하기 위해 도 13에서는 각 모듈의 동작을 간략하게 설명한다. 도 7에서 설명한 장치의 동작은 도 13의 각 모듈에도 적용될 수 있다.Since the operation of each module of FIG. 13 is similar to the operation of each step described with reference to FIG. 7 , the operation of each module will be briefly described in FIG. 13 to avoid duplicate description. The operation of the device described with reference to FIG. 7 may also be applied to each module of FIG. 13 .
흑백 변환 모듈(1310)은 입력 영상(810)을 흑백 스케일로 변환하여 흑백 스케일 영상을 생성한다. 기계학습 모델을 이용하여 영상을 처리하는 경우, 처리량이 많기 때문에, 흑변 변환 모듈(1310)은 처리량을 감소시키기 위해 입력 영상(810)을 흑백 스케일로 변환한다. 프로세서(220)는 흑백 입력 영상을 이용함에 의해, 기존에 R, G, B 3개의 채널로 입력 영상을 처리하던 것을 하나의 채널로 입력 영상을 처리할 수 있어 처리량을 감소시킬 수 있다.The black-and-white conversion module 1310 generates a black-and-white scale image by converting the input image 810 into a black-and-white scale. When an image is processed using the machine learning model, since the amount of processing is large, the black-and-white conversion module 1310 converts the input image 810 into a black-and-white scale in order to reduce the amount of processing. By using the black-and-white input image, the processor 220 can process the input image with one channel instead of processing the input image with three channels, R, G, and B, so that the throughput can be reduced.
다음으로, 객체 인식 모델(820)은 흑백 입력 영상으로부터 규격 용기 영역을 검출한다. 일 실시예에 따르면, 객체 인식 모델(820)은 YOLO 모델을 포함할 수 있다. 객체 인식 모듈(820)은 규격 용기 영역에 대응하는 객체 인식 영상(830)을 생성하여 배경 제거 모듈(910)로 출력한다.Next, the object recognition model 820 detects the standard container area from the black-and-white input image. According to an embodiment, the object recognition model 820 may include a YOLO model. The object recognition module 820 generates an object recognition image 830 corresponding to the standard container area and outputs it to the background removal module 910 .
배경 제거 모듈(910)은 객체 인식 영상(830)에서 규격 용기(110)에 해당하는 영역을 제외한 배경을 제거한 배경 제거 영상(920)을 생성한다. 배경 제거 모듈(910)은 배경 제거 영상(920)을 제1 기계학습 모델(1020)로 출력한다.The background removal module 910 generates a background removal image 920 in which a background is removed from the object recognition image 830 except for an area corresponding to the standard container 110 . The background removal module 910 outputs the background removal image 920 to the first machine learning model 1020 .
제1 기계학습 모델(1020)은 배경 제거 영상(920)을 입력받아 배경 제거 영상(920)으로부터 객체를 인식하고 분류한다. 제1 기계학습 모델(1020)은 Semantic Segmentation 모델을 포함한다. Semantic Segmentation 모델의 출력은 규격 용기(110) 내부의 물건과 용기 벽면을 다른 색으로 표시한 영상이다. 제1 기계학습 모델(1020)은 물건 영역과 용기 벽면 영역이 다른 색으로 표시된 제1 출력 영상(1030)을 출력한다.The first machine learning model 1020 receives the background removed image 920 , and recognizes and classifies an object from the background removed image 920 . The first machine learning model 1020 includes a semantic segmentation model. The output of the Semantic Segmentation model is an image in which the object inside the standard container 110 and the wall of the container are displayed in different colors. The first machine learning model 1020 outputs a first output image 1030 in which the object area and the container wall area are displayed in different colors.
Semantic Segmentation을 성공적으로 사용하기 위해, Tensorflow API를 사용하여 제1 기계학습 모델(1020)을 학습시킬 수 있다. 예를 들면, 제1 기계학습 모델(1020)은 배경 제거 영상(920)을 입력 데이터로하고, 물체가 인식되어 분류된 영상 데이터를 출력 데이터로하는 트레이닝 데이터를 이용하여 학습된다. 입력 데이터와 출력 데이터는 소정의 사이즈를 가질 수 있고, 예를 들면, 250*250, 128*128 등으로 사이즈가 정의될 수 있다. 트레이닝 데이터를 생성하기 위해, 소정의 엔진 또는 data augmentation 알고리즘이 이용될 수 있다.In order to successfully use semantic segmentation, the first machine learning model 1020 may be trained using the Tensorflow API. For example, the first machine learning model 1020 is learned using training data using the background-removed image 920 as input data and image data from which an object is recognized and classified as output data. The input data and the output data may have a predetermined size, and the size may be defined as, for example, 250*250, 128*128, or the like. To generate the training data, any engine or data augmentation algorithm may be used.
부피 계산 모듈(1110)은 제1 기계학습 모델(1020)로부터 제1 출력 영상(1030)을 입력받는다. 부피 계산 모듈(1110)은 앞서 도 11을 이용하여 설명한 방식으로 제1 출력 영상(1030)으로부터 부피 계산 값을 생성하여 출력한다.The volume calculation module 1110 receives the first output image 1030 from the first machine learning model 1020 . The volume calculation module 1110 generates and outputs a volume calculation value from the first output image 1030 in the manner described above with reference to FIG. 11 .
도 14는 본 개시의 일 실시예에 따른 CNN 모델의 구조를 나타낸 도면이다.14 is a diagram illustrating the structure of a CNN model according to an embodiment of the present disclosure.
본 개시의 일 실시예에 따르면, 제1 기계학습 모델(1020)은 CNN 구조의 인공 심층 신경망을 포함한다. CNN 구조는 합성 곱 계층과 Fully connected 계층을 포함한다. 합성 곱 계층은 특성 추출의 동작을 수행한다. 합성 곱 계층은 컨벌루션(convolution) 레이어, 액티베이션 레이어, 및 풀링(pooling) 레이어를 포함한다. 합성 곱 계층에 의해 입력 벡터로부터 입력 벡터의 Feature가 추출된다. 합성 곱 계층 다음으로 Fully connected 계층이 배치된다. Fully Connected 계층은 합성 곱 계층에서 추출된 feature로부터 출력 벡터를 생성한다. Fully Connected 계층은 레이어 사이의 모든 노드가 연결되어 연산된다. According to an embodiment of the present disclosure, the first machine learning model 1020 includes an artificial deep neural network of a CNN structure. The CNN structure includes a convolutional product layer and a fully connected layer. The convolutional product layer performs the operation of feature extraction. The synthetic product layer includes a convolution layer, an activation layer, and a pooling layer. The feature of the input vector is extracted from the input vector by the convolutional product layer. After the convolutional product layer, a fully connected layer is placed. The fully connected layer generates an output vector from features extracted from the convolutional product layer. Fully Connected layer is calculated by connecting all nodes between layers.
제1 기계학습 모델(1020)은 CNN 구조를 포함하는 모델을 기반으로 트레이닝 데이터에 의해 학습될 수 있다.The first machine learning model 1020 may be learned by training data based on a model including a CNN structure.
도 15는 본 개시의 일 실시예에 따른 규격 용기 영역의 영상 데이터 및 제1 출력 영상을 나타낸 도면이다. 15 is a diagram illustrating image data and a first output image of a standard container area according to an embodiment of the present disclosure.
규격 용기 영역의 영상 데이터(1510)는 규격 용기가 중앙에 배치되도록 생성될 수 있다. 일 실시예에 따르면, 규격 용기 영역의 영상 데이터(1510)는 규격 용기의 변(1512)을 인식하여 영상에 표시할 수 있다.The image data 1510 of the standard container area may be generated such that the standard container is disposed in the center. According to an embodiment, the image data 1510 of the standard container area may recognize the side 1512 of the standard container and display it on the image.
제1 출력 영상(1520)은 물체 종류를 분류하여, 각 물체 종류에 대응하는 영역을 동일한 픽셀 값 또는 패턴으로 나타낸다. The first output image 1520 classifies object types and indicates regions corresponding to each object type with the same pixel value or pattern.
한편, 개시된 실시 예들은 컴퓨터에 의해 실행 가능한 명령어 및 데이터를 저장하는 컴퓨터로 읽을 수 있는 기록매체의 형태로 구현될 수 있다. 상기 명령어는 프로그램 코드의 형태로 저장될 수 있으며, 프로세서에 의해 실행되었을 때, 소정의 프로그램 모듈을 생성하여 소정의 동작을 수행할 수 있다. 또한, 상기 명령어는 프로세서에 의해 실행되었을 때, 개시된 실시예들의 소정의 동작들을 수행할 수 있다. Meanwhile, the disclosed embodiments may be implemented in the form of a computer-readable recording medium storing instructions and data executable by a computer. The instructions may be stored in the form of program code, and when executed by the processor, a predetermined program module may be generated to perform a predetermined operation. Further, the instruction, when executed by a processor, may perform certain operations of the disclosed embodiments.
이상에서와 같이 첨부된 도면을 참조하여 개시된 실시 예들을 설명하였다. 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고도, 개시된 실시 예들과 다른 형태로 본 발명이 실시될 수 있음을 이해할 것이다. 개시된 실시 예들은 예시적인 것이며, 한정적으로 해석되어서는 안 된다.As described above, the disclosed embodiments have been described with reference to the accompanying drawings. Those of ordinary skill in the art to which the present invention pertains will understand that the present invention may be practiced in other forms than the disclosed embodiments without changing the technical spirit or essential features of the present invention. The disclosed embodiments are illustrative and should not be construed as limiting.

Claims (11)

  1. 입력 영상을 수신하는 단계;receiving an input image;
    상기 입력 영상으로부터 미리 정의된 규격 용기에 대응하는 규격 용기 영역을 검출하는 단계;detecting a standard container area corresponding to a predefined standard container from the input image;
    상기 입력 영상으로부터 제1 기계학습 모델을 이용하여 상기 규격 용기의 벽면에 대응하는 용기 벽면 영역과 상기 규격 용기 내부에 담긴 물건에 대응하는 물건 영역을 인식하는 단계;recognizing a container wall area corresponding to the wall surface of the standard container and an object area corresponding to an object contained in the standard container using a first machine learning model from the input image;
    상기 용기 벽면 영역 및 상기 물건 영역을 포함하는 전체 영역의 픽셀 중, 상기 물건 영역의 픽셀 비율을 산출하는 단계; 및calculating a pixel ratio of the object area among pixels of the entire area including the container wall area and the object area; and
    상기 픽셀 비율에 기초하여, 상기 물건의 부피 측정 값을 생성하는 단계를 포함하는 물건 부피 측정 방법.and generating a volume measurement value of the object based on the pixel ratio.
  2. 제1항에 있어서,According to claim 1,
    상기 물건 부피 측정 방법은, 상기 입력 영상으로부터 상기 규격 용기 영역을 제외한 배경 영역을 제거하는 단계를 더 포함하고,The object volume measurement method further comprises removing a background area excluding the standard container area from the input image,
    상기 용기 벽면 영역 및 상기 물건 영역을 인식하는 단계는, 상기 배경 영역이 제거된 입력 영상을 이용하여 수행되는, 물건 부피 측정 방법.The step of recognizing the container wall area and the object area is performed using an input image from which the background area has been removed.
  3. 제2항에 있어서,3. The method of claim 2,
    상기 배경 영역을 제거하는 단계는, The step of removing the background area comprises:
    상기 규격 용기 영역을 관심 영역으로 정의하는 단계;defining the standard container region as a region of interest;
    상기 입력 영상으로부터 상기 관심 영역을 제외한 영역을 상기 배경 영역으로 정의하는 단계; 및defining a region excluding the region of interest from the input image as the background region; and
    상기 배경 영역을 단일 픽셀 값으로 표시한 제1 출력 영상을 생성하는 단계를 포함하는, 물건 부피 측정 방법.and generating a first output image in which the background area is displayed as a single pixel value.
  4. 제1항에 있어서,According to claim 1,
    상기 제1 기계학습 모델은 Sementic Segmentation 모델에 대응하고,The first machine learning model corresponds to a segmentic segmentation model,
    상기 용기 벽면 영역 및 상기 물건 영역을 인식하는 단계는,Recognizing the container wall area and the object area comprises:
    상기 Sementic Segmentation 모델을 이용하여 상기 용기 벽면 영역과 상기 물건 영역을 인식하는 단계를 포함하고,Recognizing the container wall area and the object area using the segmentic segmentation model,
    상기 물건 부피 측정 방법은, 상기 용기 벽면 영역을 제1 픽셀 값으로 변환하고, 상기 물건 영역을 제2 픽셀 값으로 변환하는 단계를 더 포함하는 물건 부피 측정 방법.The method for measuring object volume further includes converting the container wall area into a first pixel value and converting the object area into a second pixel value.
  5. 제1항에 있어서,The method of claim 1,
    상기 규격 용기는 일부가 개방된 다면체 형태의 규격 용기이고,The standard container is a standard container in the form of a polyhedron partially open,
    상기 픽셀 비율을 산출하는 단계는,Calculating the pixel ratio comprises:
    상기 규격 용기의 각 벽면에 대응하는 복수의 벽면 영역을 인식하는 단계;recognizing a plurality of wall areas corresponding to each wall surface of the standard container;
    상기 물건 영역을 상기 복수의 벽면 영역에 각각 대응하는 복수의 서브 물건 영역으로 분할하는 단계;dividing the object area into a plurality of sub object areas respectively corresponding to the plurality of wall areas;
    상기 복수의 서브 물건 영역 각각의 픽셀 수에, 각 벽면에 대응하는 가중치를 적용하여 합산한 가중 물건 영역 픽셀 수를 산출하는 단계; 및calculating a weighted object area pixel count by applying a weight corresponding to each wall surface to the pixel number of each of the plurality of sub object areas; and
    상기 가중 물건 영역 픽셀 수와 상기 용기 벽면 영역의 픽셀 수를 이용하여, 상기 픽셀 비율을 산출하는 단계를 포함하는, 물건 부피 측정 방법.and calculating the pixel ratio by using the number of pixels in the weighted object area and the number of pixels in the container wall area.
  6. 제5항에 있어서,6. The method of claim 5,
    상기 규격 용기는 상면 및 정면이 개방된 직육면체 규격 용기이고,The standard container is a rectangular standard container with an open top and front surfaces,
    상기 입력 영상은 상기 개방된 상면 및 정면으로부터 사선으로 상기 규격 용기를 촬영한 영상인, 물건 부피 측정 방법.The input image is an image obtained by photographing the standard container in an oblique line from the open upper surface and the front surface, the object volume measurement method.
  7. 제6항에 있어서,7. The method of claim 6,
    상기 직육면체 규격 용기의 각 벽면의 가중치는, 상기 직육면체 규격 용기의 양 측면, 정면, 및 하면 순서로 증가하는, 물건 부피 측정 방법.The weight of each wall surface of the rectangular parallelepiped container is increased in the order of both sides, the front, and the lower surface of the rectangular standard container, the object volume measurement method.
  8. 제1항에 있어서,According to claim 1,
    상기 물건의 부피 측정 값은 상기 규격 용기의 부피 전체에 대한 퍼센트로 정의되는, 물건 부피 측정 방법.wherein the volume measurement value of the object is defined as a percentage of the total volume of the standard container.
  9. 제1항에 있어서,According to claim 1,
    상기 입력 영상은 복수의 프레임을 포함하는 동영상이고,The input image is a video including a plurality of frames,
    상기 물건 부피 측정 방법은, 상기 규격 용기 영역이 검출된 프레임을 추출하는 단계를 더 포함하고,The object volume measurement method further comprises extracting a frame in which the standard container area is detected,
    상기 규격 용기 영역을 검출하는 단계는, 상기 추출된 프레임을 상기 입력 영상으로 이용하는, 물건 부피 측정 방법.The detecting of the standard container area includes using the extracted frame as the input image, an object volume measurement method.
  10. 입력 영상을 수신하는 입력 인터페이스;an input interface for receiving an input image;
    적어도 하나의 인스트럭션을 저장하는 메모리;a memory storing at least one instruction;
    상기 적어도 하나의 인스트럭션을 실행하는 적어도 하나의 프로세서; 및at least one processor executing the at least one instruction; and
    출력 인터페이스를 포함하고,an output interface;
    상기 적어도 하나의 프로세서는 상기 적어도 하나의 인스트럭션을 실행함에 의해,the at least one processor by executing the at least one instruction,
    상기 입력 영상으로부터 미리 정의된 규격 용기에 대응하는 규격 용기 영역을 검출하고,Detecting a standard container area corresponding to a predefined standard container from the input image,
    상기 입력 영상으로부터 제1 기계학습 모델을 이용하여 상기 규격 용기의 벽면에 대응하는 용기 벽면 영역과 상기 규격 용기 내부에 담긴 물건에 대응하는 물건 영역을 인식하고,Recognizing the container wall area corresponding to the wall surface of the standard container and the object area corresponding to the object contained in the standard container using a first machine learning model from the input image,
    상기 용기 벽면 영역 및 상기 물건 영역을 포함하는 전체 영역의 픽셀 중, 상기 물건 영역의 픽셀 비율을 산출하고,calculating a pixel ratio of the object area among pixels of the entire area including the container wall area and the object area;
    상기 픽셀 비율에 기초하여, 상기 물건의 부피 측정 값을 생성하고,generate a volumetric value of the object based on the pixel ratio;
    상기 출력 인터페이스를 통해 상기 물건의 부피 측정 값을 출력하는, 물건 부피 측정 장치.and outputting a volume measurement value of the object through the output interface.
  11. 프로세서에 의해 실행되었을 때 물건 부피 측정 방법을 수행하고, 기록매체에 기록된 컴퓨터 프로그램에 있어서, 상기 물건 부피 측정 방법은,A computer program recorded on a recording medium for performing an object volume measurement method when executed by a processor, wherein the object volume measurement method comprises:
    상기 입력 영상으로부터 미리 정의된 규격 용기에 대응하는 규격 용기 영역을 검출하는 단계;detecting a standard container area corresponding to a predefined standard container from the input image;
    상기 입력 영상으로부터 제1 기계학습 모델을 이용하여 상기 규격 용기의 벽면에 대응하는 용기 벽면 영역과 상기 규격 용기 내부에 담긴 물건에 대응하는 물건 영역을 인식하는 단계;recognizing a container wall area corresponding to the wall surface of the standard container and an object area corresponding to an object contained in the standard container using a first machine learning model from the input image;
    상기 용기 벽면 영역 및 상기 물건 영역을 포함하는 전체 영역의 픽셀 중, 상기 물건 영역의 픽셀 비율을 산출하는 단계; 및calculating a pixel ratio of the object area among pixels of the entire area including the container wall area and the object area; and
    상기 픽셀 비율에 기초하여, 상기 물건의 부피 측정 값을 생성하는 단계를 포함하는 기록매체에 기록된 컴퓨터 프로그램.and generating a volume measurement value of the object based on the pixel ratio.
PCT/KR2021/017807 2020-12-11 2021-11-30 Device and method for measuring volume of object in receptacle on basis of camera image using machine learning model WO2022124673A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2020-0173501 2020-12-11
KR1020200173501A KR102597692B1 (en) 2020-12-11 2020-12-11 Method, apparatus, and computer program for measuring volume of objects by using image

Publications (1)

Publication Number Publication Date
WO2022124673A1 true WO2022124673A1 (en) 2022-06-16

Family

ID=81973779

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2021/017807 WO2022124673A1 (en) 2020-12-11 2021-11-30 Device and method for measuring volume of object in receptacle on basis of camera image using machine learning model

Country Status (2)

Country Link
KR (1) KR102597692B1 (en)
WO (1) WO2022124673A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117078103A (en) * 2023-08-29 2023-11-17 南京图灵信息技术有限公司 Commodity quality monitoring data processing method and device

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100998885B1 (en) * 2009-11-19 2010-12-08 한국건설기술연구원 Apparatus and method for measuring liquid level using change of temporal pixel distribution on image
KR20150103995A (en) * 2014-03-04 2015-09-14 주식회사 영국전자 Method for Inspecting Inner Wall of Closed Reservoir
KR101873124B1 (en) * 2016-12-30 2018-06-29 부산대학교 산학협력단 Method and system for measuring watar level of liquid storage tanks
JP2019519757A (en) * 2016-04-27 2019-07-11 ベンタナ メディカル システムズ, インコーポレイテッド System and method for real time volume control
JP2020024108A (en) * 2018-08-06 2020-02-13 地方独立行政法人 岩手県工業技術センター Storage volume estimation device for storage tank

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101375018B1 (en) * 2012-11-22 2014-03-17 경일대학교산학협력단 Apparatus and method for presenting information of food using image acquisition
KR101893098B1 (en) * 2014-08-18 2018-08-29 안상요 Food dustbin and System using this apparatus
KR20200125131A (en) * 2019-04-26 2020-11-04 (주)제이엘케이 Methdo and system for measuring image thickness based on artificial intelligence

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100998885B1 (en) * 2009-11-19 2010-12-08 한국건설기술연구원 Apparatus and method for measuring liquid level using change of temporal pixel distribution on image
KR20150103995A (en) * 2014-03-04 2015-09-14 주식회사 영국전자 Method for Inspecting Inner Wall of Closed Reservoir
JP2019519757A (en) * 2016-04-27 2019-07-11 ベンタナ メディカル システムズ, インコーポレイテッド System and method for real time volume control
KR101873124B1 (en) * 2016-12-30 2018-06-29 부산대학교 산학협력단 Method and system for measuring watar level of liquid storage tanks
JP2020024108A (en) * 2018-08-06 2020-02-13 地方独立行政法人 岩手県工業技術センター Storage volume estimation device for storage tank

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117078103A (en) * 2023-08-29 2023-11-17 南京图灵信息技术有限公司 Commodity quality monitoring data processing method and device
CN117078103B (en) * 2023-08-29 2024-02-13 南京图灵信息技术有限公司 Commodity quality monitoring data processing method and device

Also Published As

Publication number Publication date
KR20220083347A (en) 2022-06-20
KR102597692B1 (en) 2023-11-03

Similar Documents

Publication Publication Date Title
WO2018143550A1 (en) Apparatus for notifying of expiration date of stored food by character reading artificial intelligence in refrigerator, and method therefor
WO2019132589A1 (en) Image processing device and method for detecting multiple objects
US11080559B2 (en) Product onboarding machine
WO2017150878A1 (en) Leveraging multi cues for fine-grained object classification
CN109727275B (en) Object detection method, device, system and computer readable storage medium
WO2019225964A1 (en) System and method for fast object detection
EP3425590B1 (en) Image processing apparatus, image processing method, and storage medium
WO2010101227A1 (en) Device for creating information for positional estimation of matter, method for creating information for positional estimation of matter, and program
JP4764172B2 (en) Method for detecting moving object candidate by image processing, moving object detecting method for detecting moving object from moving object candidate, moving object detecting apparatus, and moving object detecting program
WO2022039330A1 (en) Ocr-based document analysis system and method using virtual cell
WO2022124673A1 (en) Device and method for measuring volume of object in receptacle on basis of camera image using machine learning model
CN112508033B (en) Detection method, storage medium, and electronic apparatus
CN110555420A (en) fusion model network and method based on pedestrian regional feature extraction and re-identification
WO2020141888A1 (en) Device for managing environment of breeding farm
JPWO2017179543A1 (en) Information processing apparatus, information processing method, and program recording medium
JP2002027449A (en) Method and apparatus for identifying moving object
WO2023149603A1 (en) Thermal-image-monitoring system using plurality of cameras
WO2016104842A1 (en) Object recognition system and method of taking account of camera distortion
EP3647236A1 (en) Projection instruction device, baggage sorting system, and projection instruction method
KR20230150625A (en) Baggage sorting system
US20060010582A1 (en) Chin detecting method, chin detecting system and chin detecting program for a chin of a human face
CN112150507B (en) 3D model synchronous reproduction method and system for object posture and displacement
CN114758384A (en) Face detection method, device, equipment and storage medium
JP2018190132A (en) Computer program for image recognition, image recognition device and image recognition method
WO2024035237A1 (en) System, method and computer program for providing delivery product loading information

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21903719

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21903719

Country of ref document: EP

Kind code of ref document: A1