WO2019132589A1 - Image processing device and method for detecting multiple objects - Google Patents

Image processing device and method for detecting multiple objects Download PDF

Info

Publication number
WO2019132589A1
WO2019132589A1 PCT/KR2018/016862 KR2018016862W WO2019132589A1 WO 2019132589 A1 WO2019132589 A1 WO 2019132589A1 KR 2018016862 W KR2018016862 W KR 2018016862W WO 2019132589 A1 WO2019132589 A1 WO 2019132589A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
position information
generating
deep learning
learning model
Prior art date
Application number
PCT/KR2018/016862
Other languages
French (fr)
Korean (ko)
Inventor
김원태
강신욱
이명재
김동민
김신곤
김필수
김기동
노병필
문태준
Original Assignee
(주)제이엘케이인스펙션
대한민국(관세청장)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)제이엘케이인스펙션, 대한민국(관세청장) filed Critical (주)제이엘케이인스펙션
Publication of WO2019132589A1 publication Critical patent/WO2019132589A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration by the use of more than one image, e.g. averaging, subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/12Bounding box

Definitions

  • the present disclosure relates to an image processing apparatus and method for multi-object detection. More particularly, the present disclosure relates to an apparatus and method for learning a deep learning model for multi-object detection using a plurality of images including a single object, and a computer readable recording medium storing a program for executing the image processing method of the present disclosure And a recording medium.
  • Object recognition is processing for recognizing an area recognized as an object in an arbitrary image as one of a predetermined plurality of classes, and an object can mean a specific object in the image.
  • Deep learning learns a very large amount of data, and when new data is input, it selects the highest probability with probability based on the learning result, and it can adaptively operate according to the image
  • the artificial intelligence field there is an increasing tendency to utilize it in the field of artificial intelligence because it automatically finds the characteristic factor in the learning process of the model based on the data.
  • the technical object of the present disclosure is to provide an image processing apparatus and method for learning an image.
  • an image processing apparatus and method for generating object position information by distinguishing an object and a background from an image including a single object there is provided an image processing apparatus and method for generating object position information by distinguishing an object and a background from an image including a single object.
  • an image processing method including receiving a first image including a first object and a second image including a second object, and separating the object and the background with respect to each of the first image and the second image, An object region extracting unit; An object position information generating unit for generating position information of the first object and the second object; An image synthesizer for generating a third image including the first object and the second object based on the position information of the first object and the position information of the second object; And an object detection deep learning model learning unit for learning an object detection deep learning model using position information of the first object, position information of the second object, and the third image.
  • an image processing apparatus including an object region extracting unit for receiving an image including an object and distinguishing the object from a background, wherein the object region extracting unit compares a pixel value of the input image with a predetermined threshold value
  • An image processing apparatus may be provided for binarizing the pixel values and grouping the binarized pixel values to distinguish objects included in the input image.
  • an image processing method including an object region extracting step of receiving an image including an object and distinguishing the object and a background, wherein the object region extracting step comprises: And binarizing the pixel values and grouping the binarized pixel values to distinguish objects included in the input image.
  • a computer-readable recording medium having recorded thereon a program for executing the image processing method of the present disclosure can be provided.
  • an image processing apparatus and method for learning a deep learning model so that a multi-object image can be detected more accurately can be provided.
  • an image processing apparatus and method for learning a deep learning model for multiple object detection using a plurality of images including a single object can be provided.
  • an image processing apparatus and method for dividing an object and background from an image including a single object and generating object position information can be provided.
  • FIG. 1 is a block diagram showing the configuration of an image processing apparatus according to one embodiment of the present disclosure.
  • FIG. 2 is a diagram for explaining a process of dividing an object and a background in an image including a single object according to an embodiment of the present disclosure and generating position information of the object.
  • FIG. 3 is a diagram illustrating a process of generating a multi-object image using two images including a single object according to an embodiment of the present disclosure.
  • FIG. 4 is a diagram for explaining an embodiment of a composite neural network for generating a multi-channel feature map.
  • FIG. 5 is a diagram illustrating a process of learning a composite-object neural network using a multi-object image according to an embodiment of the present disclosure.
  • FIG. 6 is a diagram for explaining a process of analyzing an actual image using an image processing apparatus according to an embodiment of the present disclosure.
  • FIG. 7 is a diagram for explaining an image processing method according to an embodiment of the present disclosure.
  • first, second, etc. are used only for the purpose of distinguishing one element from another, and do not limit the order or importance of elements, etc. unless specifically stated otherwise.
  • a first component in one embodiment may be referred to as a second component in another embodiment, and similarly a second component in one embodiment may be referred to as a first component .
  • the components that are distinguished from each other are intended to clearly illustrate each feature and do not necessarily mean that components are separate. That is, a plurality of components may be integrated into one hardware or software unit, or a single component may be distributed into a plurality of hardware or software units. Thus, unless otherwise noted, such integrated or distributed embodiments are also included within the scope of this disclosure.
  • the components described in the various embodiments are not necessarily essential components, and some may be optional components. Thus, embodiments consisting of a subset of the components described in one embodiment are also included within the scope of the present disclosure. Also, embodiments that include other elements in addition to the elements described in the various embodiments are also included in the scope of the present disclosure.
  • FIG. 1 is a block diagram showing the configuration of an image processing apparatus according to one embodiment of the present disclosure.
  • the image processing apparatus 100 includes an object region extraction unit 110, an object position information generation unit 120, an image synthesis unit 130, and / or an object detection deep learning model learning unit 140 .
  • this shows only some components necessary for explaining the present embodiment, and the components included in the image processing apparatus 100 are not limited to the above-described examples.
  • two or more constituent units may be implemented in one constituent unit, and an operation performed in one constituent unit may be divided and executed in two or more constituent units.
  • some of the constituent parts may be omitted or additional constituent parts may be added.
  • the image processing apparatus 100 receives a first image including a first object and a second image including a second object, and acquires an object and a background for each of the first image and the second image, And generates a third image including the first object and the second object based on the position information of the first object and the position information of the second object,
  • the object detection deep learning model can be learned using the position information of the first object, the position information of the second object, and the third image.
  • the input image 150 may include an image including a single object.
  • the input image 150 may be an image related to a cargo including one object.
  • the input image 150 may be an X-ray image of the cargo taken by the X-ray reading device.
  • the image may be a raw image taken by an X-ray imaging device or an image in any form (format) for storing or transmitting the image.
  • the image may be obtained by capturing image data captured by an X-ray reading device and transmitting the image data to an output device such as a monitor and then data.
  • the object region extracting unit 110 may receive the image 150 including a single object and may divide the received image into an object and a background.
  • the object refers to a specific object in the image, and the background can refer to a part excluding an object from the image.
  • the object region extracting unit 110 according to an embodiment compares a pixel value of the input image 150 with a predetermined threshold value to binarize the pixel value and groups the binarized pixel values, You can distinguish objects. A specific process of extracting an object will be described later with reference to FIG.
  • the object position information generation unit 120 can determine the position of the object extracted from the object region extraction unit 110. For example, the object position information generation unit 120 specifies a bounding box surrounding the object region, and generates position information of the separated object in the object region extraction unit 110 based on the specified rectangular box can do. The specific process of generating the location information of the object will be described in more detail with reference to FIG.
  • the object region extraction unit 200 and the object position information generation unit 260 of FIG. 2 may be an embodiment of the object region extraction unit 110 and the object position information generation unit 120 of FIG. 1, respectively.
  • the input image 210 may be the input image 150 described with reference to FIG. 1 and may be, for example, an image relating to the cargo including the bag 212 as a single object.
  • the object region extracting unit 200 roughly cuts the surrounding region based on the bag 212 by performing a cropping operation on the input image 210 including one bag 212
  • the cropped image 220 can be acquired.
  • the object region extracting unit 200 may obtain the binarized image 230 by thresholding the pixel value of the cropped image 220 and a predetermined threshold value to binarize the pixel value.
  • the object region extracting unit 200 can obtain the grouped image 240 by grouping adjacent pixels to select a portion of the object from the binarized image 230. Then, the object region extracting unit 200 performs labeling and hole filling operations on the grouped image 240 to generate a pixel group formed in the largest shape as a region 252 for the object And determining the remainder as the area 254 for the background.
  • the object position information generation unit 260 can determine the position of the object in the input image 210 using the information about the object region image extracted by the object region extraction unit 200.
  • the object position information generation unit 260 specifies a bounding box surrounding the object region, and generates position information of the object classified by the object region extraction unit 200 based on the specified rectangular box can do.
  • the object position information generating unit 260 specifies a rectangular box 262 surrounding the bag 212 and acquires position information of the bag 212 based on the specified rectangular box have.
  • the position information of the bag 212 may be position information of four vertices forming the rectangular box 262, but is not limited thereto.
  • the position information may be represented by the coordinates (x, y) of one vertex of the rectangular box 262 and the width and height of the rectangular box.
  • the coordinates (x, y) of the one vertex may be the coordinates of the upper left vertex of the square box 262.
  • the coordinates (x, y) of the vertex can be specified based on the coordinates (0, 0) of the upper left vertex of the input image 210.
  • position information of an object included in an image can be automatically generated, it is possible to avoid the hassle of a readout source for directly inputting the positional information of an object for each image for artificial intelligence learning .
  • the image synthesis unit 130 generates a multi-object image using a plurality of single object images obtained by acquiring the position information of the object through the object region extraction unit 110 and the object position information generation unit 120 Can be generated.
  • the first image including the first object and the second image including the second object may be transmitted through the object region extracting unit 110 and the object position information generating unit 120, respectively.
  • the position information of the second object is obtained and the image combining unit 130 generates a third image including the first object and the second object based on the obtained position information of the first object and the position information of the second object can do.
  • a detailed process of generating a multi-object image will be described in detail with reference to FIG.
  • the image combining unit 300 of FIG. 3 is an embodiment of the image combining unit 130 of FIG. 3, the image combining unit 300 includes a first single object image 310, a second single object image 320, and a first single object image 320 obtained through an object region extracting unit and an object position information generating unit 310 and the second single object image 320 are included in the multi object image 340 and the multi object image 340 in which the first single object image 310 and the second single object image are combined And obtain location information 350 for the objects.
  • the image combining unit 300 may also use the image 330 for the background separated from the object when the first single object image 310 and the second single object image 320 are combined.
  • the object detection deep learning model learning unit 140 may learn an object detection deep learning model using position information of a first object, position information of a second object, and a third image.
  • the object detection deep learning model learning unit 140 can learn the artificial neural network model.
  • the position information of the first object, the position information of the second object, and the third image may be used for learning of the compound neural network model.
  • the combined-product neural network model will be described in more detail with reference to FIGS. 4 and 5.
  • FIG. 4 is a diagram for explaining an embodiment of a composite neural network for generating a multi-channel feature map.
  • the composite neural network of the present disclosure may be used to extract " features " such as borders, line colors, etc. from input data (images) and may include multiple layers. Each layer can receive input data and process the input data of the layer to generate output data.
  • the composite neural network can output the feature map generated by convoluting the input image or the input feature map with filter kernels as output data.
  • the initial layers of the composite product neural network may be operated to extract low level features such as edges or gradients from the input.
  • the next layers of the neural network can extract gradually more complex features such as eyes, nose, and so on.
  • the image processing based on the composite neural network can be applied to various fields. For example, image processing apparatuses for image object recognition, image processing apparatuses for image reconstruction, image processing apparatuses for semantic segmentation, image processing for scene recognition, Device or the like.
  • the input image 410 may be processed through the composite neural network 400 to output a feature map image.
  • the outputted feature map image can be utilized in various fields as described above.
  • the composite neural network 400 may be processed through a plurality of layers 420, 430, and 440, and each layer may output multi-channel feature map images 425 and 435.
  • a plurality of layers 420, 430, and 440 may extract a feature of an image by applying a filter having a predetermined size from a left top end to a right bottom end of input data.
  • the plurality of layers 420, 430, and 440 multiply the weights by the weighted upper left NxM pixels of the input data and map them to a neuron at the upper left of the feature map.
  • the weight to be multiplied will also be NxM.
  • the NxM may be, for example, 3x3, but is not limited thereto.
  • the plurality of layers 420, 430, and 440 scans input data from left to right and from top to bottom by k squares, and maps the weights to neurons of the feature map.
  • the k-th column means a stride for moving the filter when performing the product multiplication, and can be set appropriately to adjust the size of the output data.
  • k may be one.
  • the NxM weight is called a filter or filter kernel. That is, the process of applying the filter in the plurality of layers 420, 430, and 440 is a process of performing a convolution operation with the filter kernel. As a result, the extracted result is called a "feature map" Map image ".
  • the layer on which the convolution operation is performed may be referred to as a convolution layer.
  • the term " multiple-channel feature map " refers to a set of feature maps corresponding to a plurality of channels, and may be, for example, a plurality of image data.
  • the multi-channel feature maps may be inputs at any layer of the composite neural network, and may be output according to feature map computation results such as convolution operations.
  • the multi-channel feature maps 425, 435 are generated by a plurality of layers 420, 430, 440, also referred to as "feature extraction layers" or "convolutional layers” do. Each layer may sequentially receive the multi-channel feature maps generated in the previous layer and generate the next multi-channel feature maps as output.
  • L (L is an integer) th layer 440, multi-channel feature maps generated in the (L-1) th layer (not shown) are received to generate multi-channel feature maps.
  • the feature maps 425 having the channel K1 are outputs according to the feature map operation 420 in the layer 1 for the input image 410 and the feature map operation 430 in the layer 2 ≪ / RTI > Feature maps 435 with channel K2 are also outputs according to feature map operation 430 at layer 2 for input feature maps 425 and feature map operations (not shown) at layer 3, ≪ / RTI >
  • the multi-channel feature maps 425 generated in the first layer 420 include feature maps corresponding to K1 (K1 is an integer) channels.
  • the multi-channel feature maps 435 generated in the second layer 430 include feature maps corresponding to K2 (K2 is an integer) channels.
  • K1 and K2 which represent the number of channels, may correspond to the number of filter kernels used in the first layer 420 and the second layer 430, respectively. That is, the number of multi-channel feature maps generated in the Mth layer (M is an integer equal to or greater than 1 and equal to or smaller than L-1) may be equal to the number of filter kernels used in the Mth layer.
  • the object detection deep learning model learning unit 500 of FIG. 5 is an embodiment of the object detection deep learning model learning unit 140 of FIG. Referring to FIG. 5, a multi-object image 510 synthesized using single object images and location information of objects may be used as data necessary for learning.
  • the object detection deep learning model learning unit 500 can learn the composite neural network 520 by projecting the position information of each of the single objects together with the multi object image 510.
  • a superimposed X-Ray image of a plurality of objects can be obtained.
  • the artificial neural network is learned by using the shape of each object together with the position information of the objects of the object, the more accurate detection result can be obtained even when the overlap between the objects occurs.
  • FIG. 6 is a diagram for explaining a process of analyzing an actual image using an image processing apparatus according to an embodiment of the present disclosure.
  • the image processing apparatus 600 of FIG. 6 is an embodiment of the image processing apparatus 100 of FIG.
  • the object detecting apparatus 620 can detect each object using the artificial neural network model learned in the image processing apparatus 600 for an image 622 including multiple objects in a real environment.
  • the image processing apparatus 600 of the present disclosure when the present disclosure is applied to an electronic clearance system, the image processing apparatus 600 of the present disclosure generates a new multi-object embedded image based on a single object region extraction in an X-ray image .
  • the object detection apparatus 620 can also find an area where there are multiple objects contained in the cargo passing through the X-ray scanner. Therefore, by automatically extracting the position of the object with respect to the X-ray image, it is possible to more easily perform the image inspection operation by the readout source, and further, the information including the extracted object and the quantity information of the object in the cargo And can be used for comparison of computerized information.
  • FIG. 7 is a diagram for explaining an image processing method according to an embodiment of the present disclosure.
  • the first image including the first object and the second image including the second object may be input, and the object and the background may be distinguished for each of the first image and the second image. For example, a pixel value of an input image may be compared with a predetermined threshold value to binarize the pixel value, and binarized pixel values may be grouped to distinguish objects included in the input image.
  • step S710 location information of the first object and the second object may be generated. For example, a rectangular box surrounding the object area may be specified, and position information of the object classified in step S700 may be generated based on the specified rectangular box.
  • a third image including the first object and the second object may be generated based on the position information of the first object and the position information of the second object.
  • the third image including the first object and the second object may be generated based on the position information of the first object and the position information of the second object obtained in step S710.
  • the object detection deep learning model can be learned using the position information of the first object, the position information of the second object, and the third image. For example, it is possible to learn the compound neural network model. In order to learn the neural network model, the position information of the first object generated in step S710, the position information of the second object, and the third image generated in step S720 are used .
  • the present invention is not limited thereto, and the input image may be an image including two or more objects. In this case, it is possible to distinguish two or more objects and backgrounds from the input image, and generate position information for each of the two or more objects.
  • the description with reference to FIG. 2 when a plurality of pixel groups are formed, it can be determined that not only the pixel groups formed in the largest shape but also the other pixel groups are regions for the objects. The process of generating the position information of each determined object is the same as described for the image including one object.
  • the third image is generated based on the two single object images and the position information of the respective objects.
  • the present invention is not limited to this, and a third image may be generated using two or more single object images and position information of each object. That is, the image processing method and apparatus according to the present disclosure can generate a third image based on two or more images each including one or more objects and position information of each object.
  • the deep learning based model of the present disclosure can also be applied to a fully convoluted neural network, a convolutional neural network, a recurrent neural network, but is not limited to, at least one of a neural network, a restricted Boltzmann machine (RBM), and a deep belief neural network (DBN).
  • a machine running method other than deep running may be included.
  • a hybrid model combining deep running and machine running For example, a feature of an image may be extracted by applying a deep learning-based model, and a model based on a machine learning may be applied when an image is classified or recognized based on the extracted feature.
  • the machine learning based model may include, but is not limited to, a support vector machine (SVM), an AdaBoost, and the like.
  • the exemplary methods of this disclosure are represented by a series of acts for clarity of explanation, they are not intended to limit the order in which the steps are performed, and if necessary, each step may be performed simultaneously or in a different order.
  • the illustrative steps may additionally include other steps, include the remaining steps except for some steps, or may include additional steps other than some steps.
  • various embodiments of the present disclosure may be implemented by hardware, firmware, software, or a combination thereof.
  • one or more application specific integrated circuits (ASICs), digital signal processors (DSPs), digital signal processing devices (DSPDs), programmable logic devices (PLDs), field programmable gate arrays A general processor, a controller, a microcontroller, a microprocessor, and the like.
  • the present invention can be used to process images containing multiple objects.

Abstract

Provided is an image processing method and device for learning a deep learning model to detect multiple objects by using a plurality of images each containing a single object. The image processing method according to the present disclosure comprises: an object area extraction step of receiving a first image containing a first object and a second image containing a second object, and distinguishing between the object and the background of each of the first and second images; an object location information generation step of generating location information of the distinguished first and second objects; an image synthesis step of generating a third image containing the first and second objects on the basis of the location information of the first object and the location information of the second object; and an object detection deep learning model learning step of learning an object detection deep learning model by using the location information of the first object, the location information of the second object, and the third image.

Description

다중 객체 검출을 위한 영상 처리 장치 및 방법Image processing apparatus and method for multi-object detection
본 개시는 다중 객체 검출을 위한 영상 처리 장치 및 방법에 관한 것이다. 보다 구체적으로, 본 개시는 단일 객체를 포함하는 복수의 영상을 이용하여 다중 객체 검출을 위한 딥러닝 모델을 학습하는 장치, 방법 및 본 개시의 영상 처리 방법을 실행하기 위한 프로그램을 기록한 컴퓨터로 판독 가능한 기록 매체에 관한 것이다.The present disclosure relates to an image processing apparatus and method for multi-object detection. More particularly, the present disclosure relates to an apparatus and method for learning a deep learning model for multi-object detection using a plurality of images including a single object, and a computer readable recording medium storing a program for executing the image processing method of the present disclosure And a recording medium.
객체 인식은 임의의 영상 내에서 객체로 인식된 영역을 기설정된 복수의 부류(class) 중 하나로 인식하는 프로세싱으로서, 객체란 영상 내의 특정한 물체를 의미할 수 있다.Object recognition is processing for recognizing an area recognized as an object in an arbitrary image as one of a predetermined plurality of classes, and an object can mean a specific object in the image.
한편, 딥러닝(deep learning)은 매우 방대한 양의 데이터를 학습하여, 새로운 데이터가 입력될 경우 학습 결과를 바탕으로 확률적으로 가장 높은 답을 선택하는 것으로서, 영상에 따라 적응적으로 동작할 수 있으며, 데이터에 기초하여 모델을 학습하는 과정에서 특성인자를 자동으로 찾아내기 때문에 최근 인공 지능 분야에서 이를 활용하려는 시도가 늘어나고 있는 추세이다.Deep learning, on the other hand, learns a very large amount of data, and when new data is input, it selects the highest probability with probability based on the learning result, and it can adaptively operate according to the image In the artificial intelligence field, there is an increasing tendency to utilize it in the field of artificial intelligence because it automatically finds the characteristic factor in the learning process of the model based on the data.
그러나, 기존의 관세 전자 통관 시스템에서는 영상 내 객체를 분석하는 작업과 관련하여 이러한 딥러닝 등의 기술을 활용한 보다 효율적이고 정확한 데이터 분석에 관한 연구가 부족한 실정이다.However, there is a lack of research on more efficient and accurate data analysis using technology such as deep - run in relation to the task of analyzing the objects in the image in the existing customs and electronic clearance system.
본 개시의 기술적 과제는, 영상을 학습하기 위한 영상 처리 장치 및 방법을 제공하는 것이다.The technical object of the present disclosure is to provide an image processing apparatus and method for learning an image.
본 개시의 다른 기술적 과제는, 단일 객체를 포함하는 복수의 영상을 이용하여 다중 객체 검출을 위한 딥러닝 모델을 학습하는 영상 처리 장치 및 방법을 제공하는 것이다.It is another object of the present invention to provide an image processing apparatus and method for learning a deep learning model for detecting multiple objects using a plurality of images including a single object.
본 개시의 또 다른 기술적 과제는, 단일 객체를 포함하는 영상으로부터 객체와 배경을 구분하고, 객체 위치 정보를 생성하는 영상 처리 장치 및 방법을 제공하는 것이다.According to another aspect of the present invention, there is provided an image processing apparatus and method for generating object position information by distinguishing an object and a background from an image including a single object.
본 개시에서 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급하지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.The technical objects to be achieved by the present disclosure are not limited to the above-mentioned technical subjects, and other technical subjects which are not mentioned are to be clearly understood from the following description to those skilled in the art It will be possible.
본 개시의 일 양상에 따르면, 제1 객체를 포함하는 제1 영상 및 제2 객체를 포함하는 제2 영상을 입력 받아, 상기 제1 영상 및 상기 제2 영상의 각각에 대해 상기 객체와 배경을 구분하는 객체 영역 추출부; 상기 구분된 제1 객체 및 제2 객체의 위치 정보를 생성하는 객체 위치 정보 생성부; 상기 제1 객체의 위치 정보 및 상기 제2 객체의 위치 정보에 기초하여, 상기 제1 객체 및 상기 제2 객체를 포함하는 제3 영상을 생성하는 영상 합성부; 및 상기 제1 객체의 위치 정보, 상기 제2 객체의 위치 정보 및 상기 제3 영상을 이용하여 객체 검출 딥러닝 모델을 학습하는 객체 검출 딥러닝 모델 학습부를 포함하는 영상 처리 장치가 제공될 수 있다.According to an aspect of the present disclosure, there is provided an image processing method including receiving a first image including a first object and a second image including a second object, and separating the object and the background with respect to each of the first image and the second image, An object region extracting unit; An object position information generating unit for generating position information of the first object and the second object; An image synthesizer for generating a third image including the first object and the second object based on the position information of the first object and the position information of the second object; And an object detection deep learning model learning unit for learning an object detection deep learning model using position information of the first object, position information of the second object, and the third image.
본 개시의 다른 양상에 따르면, 객체를 포함하는 영상을 입력 받아, 상기 객체와 배경을 구분하는 객체 영역 추출부를 포함하고, 상기 객체 영역 추출부는, 상기 입력 영상의 픽셀값과 소정의 임계값을 비교하여 상기 픽셀값을 이진화하고, 상기 이진화된 픽셀값을 그룹핑함으로써 상기 입력 영상에 포함된 객체를 구분하는 영상 처리 장치가 제공될 수 있다.According to another aspect of the present disclosure, there is provided an image processing apparatus including an object region extracting unit for receiving an image including an object and distinguishing the object from a background, wherein the object region extracting unit compares a pixel value of the input image with a predetermined threshold value An image processing apparatus may be provided for binarizing the pixel values and grouping the binarized pixel values to distinguish objects included in the input image.
본 개시의 또 다른 양상에 따르면, 제1 객체를 포함하는 제1 영상 및 제2 객체를 포함하는 제2 영상을 입력 받아, 상기 제1 영상 및 상기 제2 영상의 각각에 대해 상기 객체와 배경을 구분하는 객체 영역 추출 단계; 상기 구분된 제1 객체 및 제2 객체의 위치 정보를 생성하는 객체 위치 정보 생성 단계; 상기 제1 객체의 위치 정보 및 상기 제2 객체의 위치 정보에 기초하여, 상기 제1 객체 및 상기 제2 객체를 포함하는 제3 영상을 생성하는 영상 합성 단계; 및 상기 제1 객체의 위치 정보, 상기 제2 객체의 위치 정보 및 상기 제3 영상을 이용하여 객체 검출 딥러닝 모델을 학습하는 객체 검출 딥러닝 모델 학습 단계를 포함하는 영상 처리 방법이 제공될 수 있다.According to still another aspect of the present disclosure, there is provided a method for receiving a first image including a first object and a second image including a second object, for each of the first image and the second image, An object region extraction step for identifying the object region; An object position information generating step of generating position information of the first object and the second object; An image synthesis step of generating a third image including the first object and the second object based on the position information of the first object and the position information of the second object; And an object detection deep learning model learning step of learning an object detection deep learning model using the position information of the first object, the position information of the second object, and the third image .
본 개시의 또 다른 양상에 따르면, 객체를 포함하는 영상을 입력 받아, 상기 객체와 배경을 구분하는 객체 영역 추출 단계를 포함하고, 상기 객체 영역 추출 단계는, 상기 입력 영상의 픽셀값과 소정의 임계값을 비교하여 상기 픽셀값을 이진화하고, 상기 이진화된 픽셀값을 그룹핑함으로써 상기 입력 영상에 포함된 객체를 구분하는 영상 처리 방법이 제공될 수 있다.According to another aspect of the present disclosure, there is provided an image processing method including an object region extracting step of receiving an image including an object and distinguishing the object and a background, wherein the object region extracting step comprises: And binarizing the pixel values and grouping the binarized pixel values to distinguish objects included in the input image.
본 개시의 또 다른 양상에 따르면, 본 개시의 영상 처리 방법을 실행하기 위한 프로그램을 기록한 컴퓨터로 판독 가능한 기록 매체가 제공될 수 있다.According to still another aspect of the present disclosure, a computer-readable recording medium having recorded thereon a program for executing the image processing method of the present disclosure can be provided.
본 개시에 대하여 위에서 간략하게 요약된 특징들은 후술하는 본 개시의 상세한 설명의 예시적인 양상일 뿐이며, 본 개시의 범위를 제한하는 것은 아니다.The features briefly summarized above for this disclosure are only exemplary aspects of the detailed description of the disclosure which follow, and are not intended to limit the scope of the disclosure.
본 개시에 따르면, 다중 객체 영상이 보다 정확히 검출될 수 있도록 딥러닝 모델을 학습하는 영상 처리 장치 및 방법이 제공될 수 있다.According to the present disclosure, an image processing apparatus and method for learning a deep learning model so that a multi-object image can be detected more accurately can be provided.
또한, 본 개시에 따르면, 단일 객체를 포함하는 복수의 영상을 이용하여 다중 객체 검출을 위한 딥러닝 모델을 학습하는 영상 처리 장치 및 방법이 제공될 수 있다.Also, according to the present disclosure, an image processing apparatus and method for learning a deep learning model for multiple object detection using a plurality of images including a single object can be provided.
또한, 본 개시에 따르면, 단일 객체를 포함하는 영상으로부터 객체와 배경을 구분하고, 객체 위치 정보를 생성하는 영상 처리 장치 및 방법이 제공될 수 있다.Also, according to the present disclosure, an image processing apparatus and method for dividing an object and background from an image including a single object and generating object position information can be provided.
본 개시에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.The effects obtainable from the present disclosure are not limited to the effects mentioned above, and other effects not mentioned can be clearly understood by those skilled in the art from the description below will be.
도 1은 본 개시의 일 실시 에에 따른 영상 처리 장치의 구성을 나타내는 블록도이다.1 is a block diagram showing the configuration of an image processing apparatus according to one embodiment of the present disclosure.
도 2는 본 개시의 일 실시 예에 따른 단일 객체를 포함하는 영상에서, 객체와 배경을 구분하고, 객체의 위치 정보를 생성하는 과정을 설명하기 위한 도면이다.2 is a diagram for explaining a process of dividing an object and a background in an image including a single object according to an embodiment of the present disclosure and generating position information of the object.
도 3은 본 개시의 일 실시 예에 따른 단일 객체를 포함하는 두 개의 영상을 이용하여 다중 객체 영상을 생성하는 과정을 나타내는 도면이다.3 is a diagram illustrating a process of generating a multi-object image using two images including a single object according to an embodiment of the present disclosure.
도 4는 다채널 특징맵을 생성하는 합성곱 신경망의 일 실시 예를 설명하기 위한 도면이다.4 is a diagram for explaining an embodiment of a composite neural network for generating a multi-channel feature map.
도 5는 본 개시의 일 실시 예에 따른 다중 객체 영상을 이용하여 합성곱 신경망을 학습시키는 과정을 나타내는 도면이다.5 is a diagram illustrating a process of learning a composite-object neural network using a multi-object image according to an embodiment of the present disclosure.
도 6은 본 개시의 일 실시 예에 따른 영상 처리 장치를 이용하여 실제 영상을 분석하는 과정을 설명하기 위한 도면이다.6 is a diagram for explaining a process of analyzing an actual image using an image processing apparatus according to an embodiment of the present disclosure.
도 7은 본 개시의 일 실시 예에 따른 영상 처리 방법을 설명하기 위한 도면이다.7 is a diagram for explaining an image processing method according to an embodiment of the present disclosure.
이하에서는 첨부한 도면을 참고로 하여 본 개시의 실시 예에 대하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나, 본 개시는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다. Hereinafter, embodiments of the present disclosure will be described in detail with reference to the accompanying drawings, which will be easily understood by those skilled in the art. However, the present disclosure may be embodied in many different forms and is not limited to the embodiments described herein.
본 개시의 실시 예를 설명함에 있어서 공지 구성 또는 기능에 대한 구체적인 설명이 본 개시의 요지를 흐릴 수 있다고 판단되는 경우에는 그에 대한 상세한 설명은 생략한다. 그리고, 도면에서 본 개시에 대한 설명과 관계없는 부분은 생략하였으며, 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.In the following description of the embodiments of the present invention, a detailed description of known functions and configurations incorporated herein will be omitted when it may make the subject matter of the present disclosure rather unclear. Parts not related to the description of the present disclosure in the drawings are omitted, and like parts are denoted by similar reference numerals.
본 개시에 있어서, 어떤 구성요소가 다른 구성요소와 "연결", "결합" 또는 "접속"되어 있다고 할 때, 이는 직접적인 연결관계뿐만 아니라, 그 중간에 또 다른 구성요소가 존재하는 간접적인 연결관계도 포함할 수 있다. 또한 어떤 구성요소가 다른 구성요소를 "포함한다" 또는 "가진다"고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 배제하는 것이 아니라 또 다른 구성요소를 더 포함할 수 있는 것을 의미한다.In the present disclosure, when an element is referred to as being "connected", "coupled", or "connected" to another element, it is understood that not only a direct connection relationship but also an indirect connection relationship May also be included. Also, when an element is referred to as " comprising "or" having "another element, it is meant to include not only excluding another element but also another element .
본 개시에 있어서, 제1, 제2 등의 용어는 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용되며, 특별히 언급되지 않는 한 구성요소들간의 순서 또는 중요도 등을 한정하지 않는다. 따라서, 본 개시의 범위 내에서 일 실시 예에서의 제1 구성요소는 다른 실시 예에서 제2 구성요소라고 칭할 수도 있고, 마찬가지로 일 실시 예에서의 제2 구성요소를 다른 실시 예에서 제1 구성요소라고 칭할 수도 있다. In the present disclosure, the terms first, second, etc. are used only for the purpose of distinguishing one element from another, and do not limit the order or importance of elements, etc. unless specifically stated otherwise. Thus, within the scope of this disclosure, a first component in one embodiment may be referred to as a second component in another embodiment, and similarly a second component in one embodiment may be referred to as a first component .
본 개시에 있어서, 서로 구별되는 구성요소들은 각각의 특징을 명확하게 설명하기 위함이며, 구성요소들이 반드시 분리되는 것을 의미하지는 않는다. 즉, 복수의 구성요소가 통합되어 하나의 하드웨어 또는 소프트웨어 단위로 이루어질 수도 있고, 하나의 구성요소가 분산되어 복수의 하드웨어 또는 소프트웨어 단위로 이루어질 수도 있다. 따라서, 별도로 언급하지 않더라도 이와 같이 통합된 또는 분산된 실시 예도 본 개시의 범위에 포함된다. In the present disclosure, the components that are distinguished from each other are intended to clearly illustrate each feature and do not necessarily mean that components are separate. That is, a plurality of components may be integrated into one hardware or software unit, or a single component may be distributed into a plurality of hardware or software units. Thus, unless otherwise noted, such integrated or distributed embodiments are also included within the scope of this disclosure.
본 개시에 있어서, 다양한 실시 예에서 설명하는 구성요소들이 반드시 필수적인 구성요소들은 의미하는 것은 아니며, 일부는 선택적인 구성요소일 수 있다. 따라서, 일 실시 예에서 설명하는 구성요소들의 부분집합으로 구성되는 실시 예도 본 개시의 범위에 포함된다. 또한, 다양한 실시 예에서 설명하는 구성요소들에 추가적으로 다른 구성요소를 포함하는 실시 예도 본 개시의 범위에 포함된다. In the present disclosure, the components described in the various embodiments are not necessarily essential components, and some may be optional components. Thus, embodiments consisting of a subset of the components described in one embodiment are also included within the scope of the present disclosure. Also, embodiments that include other elements in addition to the elements described in the various embodiments are also included in the scope of the present disclosure.
이하, 첨부한 도면을 참조하여 본 개시의 실시 예들에 대해서 설명한다.Hereinafter, embodiments of the present disclosure will be described with reference to the accompanying drawings.
도 1은 본 개시의 일 실시 에에 따른 영상 처리 장치의 구성을 나타내는 블록도이다.1 is a block diagram showing the configuration of an image processing apparatus according to one embodiment of the present disclosure.
도 1을 참조하면, 영상 처리 장치(100)는 객체 영역 추출부(110), 객체 위치 정보 생성부(120), 영상 합성부(130) 및/또는 객체 검출 딥러닝 모델 학습부(140)를 포함할 수 있다. 다만, 이는 본 실시예를 설명하기 위해 필요한 일부 구성요소만을 도시한 것일 뿐, 영상 처리 장치(100)에 포함된 구성요소가 전술한 예에 한정되는 것은 아니다. 예컨대, 둘 이상의 구성부가 하나의 구성부 내에서 구현될 수도 있고, 하나의 구성부에서 실행되는 동작이 분할되어 둘 이상의 구성부에서 실행되도록 구현될 수도 있다. 또한, 일부 구성부가 생략되거나 부가적인 구성부가 추가될 수도 있다.1, the image processing apparatus 100 includes an object region extraction unit 110, an object position information generation unit 120, an image synthesis unit 130, and / or an object detection deep learning model learning unit 140 . However, this shows only some components necessary for explaining the present embodiment, and the components included in the image processing apparatus 100 are not limited to the above-described examples. For example, two or more constituent units may be implemented in one constituent unit, and an operation performed in one constituent unit may be divided and executed in two or more constituent units. Also, some of the constituent parts may be omitted or additional constituent parts may be added.
일 실시 예에 따른 영상 처리 장치(100)는 제1 객체를 포함하는 제1 영상 및 제2 객체를 포함하는 제2 영상을 입력 받아, 제1 영상 및 제2 영상의 각각에 대해 객체와 배경을 구분하고, 구분된 제1 객체 및 제2 객체의 위치 정보를 생성하고, 제1 객체의 위치 정보 및 제2 객체의 위치 정보에 기초하여, 제1 객체 및 제2 객체를 포함하는 제3 영상을 생성하고, 제1 객체의 위치 정보, 제2 객체의 위치 정보 및 제3 영상을 이용하여 객체 검출 딥러닝 모델을 학습할 수 있다.The image processing apparatus 100 according to an exemplary embodiment receives a first image including a first object and a second image including a second object, and acquires an object and a background for each of the first image and the second image, And generates a third image including the first object and the second object based on the position information of the first object and the position information of the second object, The object detection deep learning model can be learned using the position information of the first object, the position information of the second object, and the third image.
도 1을 참조하면, 입력 영상(150)은 단일 객체를 포함하는 영상을 포함할 수 있다. 예컨대, 입력 영상(150)은 하나의 객체를 포함하는 화물에 관한 영상일 수 있다. 또한 예컨대, 입력 영상(150)은 X-Ray 판독 기기가 촬영한 화물에 관한 X-Ray 영상일 수 있다. 상기 영상은 X-Ray 영상 기기가 촬영한 로(raw) 이미지이거나 상기 로 이미지를 저장 또는 전송하기 위한 임의의 형태(포맷)의 이미지일 수 있다. 상기 영상은 X-Ray 판독 기기가 촬영하여 모니터와 같은 출력 장치로 전송하는 영상 정보를 캡쳐하여 데이터화함으로써 획득될 수도 있다.Referring to FIG. 1, the input image 150 may include an image including a single object. For example, the input image 150 may be an image related to a cargo including one object. Also, for example, the input image 150 may be an X-ray image of the cargo taken by the X-ray reading device. The image may be a raw image taken by an X-ray imaging device or an image in any form (format) for storing or transmitting the image. The image may be obtained by capturing image data captured by an X-ray reading device and transmitting the image data to an output device such as a monitor and then data.
객체 영역 추출부(110)는 단일 객체를 포함하는 영상(150)을 수신하고 수신된 영상을 객체와 배경으로 구분할 수 있다. 객체는 영상 내의 특정한 물체를 의미하고, 배경은 영상에서 객체를 제외한 부분을 의미할 수 있다. 일 실시예에 따른 객체 영역 추출부(110)는 입력 영상(150)의 픽셀값과 소정의 임계값을 비교하여 픽셀값을 이진화하고, 이진화된 픽셀값을 그룹핑함으로써 입력 영상(150)에 포함된 객체를 구분할 수 있다. 객체를 추출하는 구체적인 과정은 도 2를 참고하여 후술한다.The object region extracting unit 110 may receive the image 150 including a single object and may divide the received image into an object and a background. The object refers to a specific object in the image, and the background can refer to a part excluding an object from the image. The object region extracting unit 110 according to an embodiment compares a pixel value of the input image 150 with a predetermined threshold value to binarize the pixel value and groups the binarized pixel values, You can distinguish objects. A specific process of extracting an object will be described later with reference to FIG.
객체 위치 정보 생성부(120)는 객체 영역 추출부(110)로부터 추출된 객체의 위치를 결정할 수 있다. 예컨대, 객체 위치 정보 생성부(120)는 객체 영역을 둘러싸는 사각형 박스(bounding box)를 특정하고, 특정된 사각형 박스에 기초하여, 객체 영역 추출부(110)에서 구분된 객체의 위치 정보를 생성할 수 있다. 객체의 위치 정보를 생성하는 구체적인 과정은 도 2를 참고하여 보다 상세히 설명한다.The object position information generation unit 120 can determine the position of the object extracted from the object region extraction unit 110. For example, the object position information generation unit 120 specifies a bounding box surrounding the object region, and generates position information of the separated object in the object region extraction unit 110 based on the specified rectangular box can do. The specific process of generating the location information of the object will be described in more detail with reference to FIG.
도 2는 본 개시의 일 실시 예에 따른 단일 객체를 포함하는 영상에서, 객체와 배경을 구분하고, 객체의 위치 정보를 생성하는 과정을 설명하기 위한 도면이다. 도 2의 객체 영역 추출부(200) 및 객체 위치 정보 생성부(260)는 각각 도 1의 객체 영역 추출부(110) 및 객체 위치 정보 생성부(120)의 일 실시 예일 수 있다. 입력 영상(210)은 도 1을 참조하여 설명한 입력 영상(150)일 수 있으며, 예컨대, 단일 객체로서 가방(212)을 포함하는 화물에 관한 영상일 수 있다. 객체 영역 추출부(200)는 먼저 하나의 가방(212)을 포함하는 입력 영상(210)에 대해 크로핑(cropping) 연산을 수행함으로써 가방(212)을 기준으로 주변 영역을 대략적으로(roughly) 잘라버린, 크로핑된 영상(220)을 획득할 수 있다. 그런 다음 객체 영역 추출부(200)는 크로핑된 영상(220)의 픽셀값과 소정의 임계값을 비교(thresholding)하여 픽셀값을 이진화함으로써 이진화된 영상(230)을 획득할 수 있다. 그리고, 객체 영역 추출부(200)는 이진화된 영상(230)에서 객체에 대한 부분을 선택하기 위해 근접한 픽셀끼리 그룹핑(군집화, morphology, closing) 함으로써, 그룹핑된 영상(240)을 획득할 수 있다. 그런 다음, 객체 영역 추출부(200)는 그룹핑된 영상(240)에 대해 라벨링(labeling) 및 홀 채우기(hole filling) 연산을 수행하여 가장 큰 형태로 형성된 픽셀 그룹을 객체에 대한 영역(252)으로 결정하고, 나머지를 배경에 대한 영역(254)으로 결정함으로써 객체 영역 영상(250)을 획득할 수 있다.2 is a diagram for explaining a process of dividing an object and a background in an image including a single object according to an embodiment of the present disclosure and generating position information of the object. The object region extraction unit 200 and the object position information generation unit 260 of FIG. 2 may be an embodiment of the object region extraction unit 110 and the object position information generation unit 120 of FIG. 1, respectively. The input image 210 may be the input image 150 described with reference to FIG. 1 and may be, for example, an image relating to the cargo including the bag 212 as a single object. The object region extracting unit 200 roughly cuts the surrounding region based on the bag 212 by performing a cropping operation on the input image 210 including one bag 212 The cropped image 220 can be acquired. Then, the object region extracting unit 200 may obtain the binarized image 230 by thresholding the pixel value of the cropped image 220 and a predetermined threshold value to binarize the pixel value. The object region extracting unit 200 can obtain the grouped image 240 by grouping adjacent pixels to select a portion of the object from the binarized image 230. Then, the object region extracting unit 200 performs labeling and hole filling operations on the grouped image 240 to generate a pixel group formed in the largest shape as a region 252 for the object And determining the remainder as the area 254 for the background.
또한, 객체 위치 정보 생성부(260)는 객체 영역 추출부(200)에서 추출된 객체 영역 영상에 대한 정보를 이용하여 입력 영상(210) 내에서의 객체의 위치를 결정할 수 있다. 예컨대, 객체 위치 정보 생성부(260)는 객체 영역을 둘러싸는 사각형 박스(bounding box)를 특정하고, 특정된 사각형 박스에 기초하여, 객체 영역 추출부(200)에서 구분된 객체의 위치 정보를 생성할 수 있다. 도 2를 참조하면, 객체 위치 정보 생성부(260)는 가방(212)을 둘러싸는 사각형 박스(262)를 특정하고, 특정된 사각형 박스에 기초하여, 가방(212)의 위치 정보를 획득할 수 있다. 예컨대, 가방(212)의 위치 정보는 사각형 박스(262)를 형성하는 네 개의 꼭지점의 위치 정보일 수 있으나, 이에 한정되지 않는다. 예컨대, 위치 정보는 사각형 박스(262)의 하나의 꼭지점의 좌표 (x, y) 및 사각형 박스의 가로 길이(width), 세로 길이(height)에 의해 표현될 수도 있다. 상기 하나의 꼭지점의 좌표 (x, y)는 사각형 박스(262)의 좌측 상단 꼭지점의 좌표일 수 있다. 상기 꼭지점의 좌표 (x, y)는 입력 영상(210)의 좌측 상단 꼭지점의 좌표 (0, 0)을 기준으로 특정될 수 있다.The object position information generation unit 260 can determine the position of the object in the input image 210 using the information about the object region image extracted by the object region extraction unit 200. [ For example, the object position information generation unit 260 specifies a bounding box surrounding the object region, and generates position information of the object classified by the object region extraction unit 200 based on the specified rectangular box can do. 2, the object position information generating unit 260 specifies a rectangular box 262 surrounding the bag 212 and acquires position information of the bag 212 based on the specified rectangular box have. For example, the position information of the bag 212 may be position information of four vertices forming the rectangular box 262, but is not limited thereto. For example, the position information may be represented by the coordinates (x, y) of one vertex of the rectangular box 262 and the width and height of the rectangular box. The coordinates (x, y) of the one vertex may be the coordinates of the upper left vertex of the square box 262. The coordinates (x, y) of the vertex can be specified based on the coordinates (0, 0) of the upper left vertex of the input image 210.
본 개시의 일 실시 예에 따르면, 영상에 포함된 객체의 위치 정보가 자동으로 생성될 수 있으므로, 인공지능 학습을 위해 판독원이 각각의 영상마다 객체의 위치 정보를 직접 입력해야 하는 번거로움을 피할 수 있다.According to an embodiment of the present disclosure, since position information of an object included in an image can be automatically generated, it is possible to avoid the hassle of a readout source for directly inputting the positional information of an object for each image for artificial intelligence learning .
다시 도 1을 참조하여, 영상 합성부(130)는 객체 영역 추출부(110) 및 객체 위치 정보 생성부(120)를 거쳐 객체의 위치 정보가 획득된 복수의 단일 객체 영상을 이용하여 다중 객체 영상을 생성할 수 있다. 예컨대, 제1 객체를 포함하는 제1 영상 및 제2 객체를 포함하는 제2 영상에 대해, 각각 객체 영역 추출부(110) 및 객체 위치 정보 생성부(120)를 거쳐 제1 객체의 위치 정보 및 제2 객체의 위치 정보가 획득되고, 영상 합성부(130)는 획득된 제1 객체의 위치 정보 및 제2 객체의 위치 정보에 기초하여 제1 객체 및 제2 객체를 포함하는 제3 영상을 생성할 수 있다. 다중 객체 영상을 생성하는 구체적인 과정에 대해 도 3을 참고하여 보다 상세히 설명한다.Referring again to FIG. 1, the image synthesis unit 130 generates a multi-object image using a plurality of single object images obtained by acquiring the position information of the object through the object region extraction unit 110 and the object position information generation unit 120 Can be generated. For example, the first image including the first object and the second image including the second object may be transmitted through the object region extracting unit 110 and the object position information generating unit 120, respectively, The position information of the second object is obtained and the image combining unit 130 generates a third image including the first object and the second object based on the obtained position information of the first object and the position information of the second object can do. A detailed process of generating a multi-object image will be described in detail with reference to FIG.
도 3은 본 개시의 일 실시 예에 따른 단일 객체를 포함하는 두 개의 영상을 이용하여 다중 객체 영상을 생성하는 과정을 나타내는 도면이다. 도 3의 영상 합성부(300)는 도 1의 영상 합성부(130)의 일 실시 예이다. 도 3을 참조하면, 영상 합성부(300)는 객체 영역 추출부 및 객체 위치 정보 생성부를 통해 획득된 제1 단일 객체 영상(310), 제2 단일 객체 영상(320) 및 제1 단일 객체 영상(310)과 제2 단일 객체 영상(320)의 위치 정보를 이용하여, 제1 단일 객체 영상(310)과 제2 단일 객체 영상이 합성된 다중 객체 영상(340) 및 다중 객체 영상(340)에 포함된 객체들에 대한 위치 정보(350)를 획득할 수 있다. 한편, 영상 합성부(300)는 제1 단일 객체 영상(310)과 제2 단일 객체 영상(320)의 합성 시 객체로부터 구분된 배경에 대한 영상(330)도 함께 이용할 수도 있다.3 is a diagram illustrating a process of generating a multi-object image using two images including a single object according to an embodiment of the present disclosure. The image combining unit 300 of FIG. 3 is an embodiment of the image combining unit 130 of FIG. 3, the image combining unit 300 includes a first single object image 310, a second single object image 320, and a first single object image 320 obtained through an object region extracting unit and an object position information generating unit 310 and the second single object image 320 are included in the multi object image 340 and the multi object image 340 in which the first single object image 310 and the second single object image are combined And obtain location information 350 for the objects. The image combining unit 300 may also use the image 330 for the background separated from the object when the first single object image 310 and the second single object image 320 are combined.
다시 도 1을 참조하여, 객체 검출 딥러닝 모델 학습부(140)는 제1 객체의 위치 정보, 제2 객체의 위치 정보 및 제3 영상을 이용하여 객체 검출 딥러닝 모델을 학습시킬 수 있다. 예컨대, 객체 검출 딥러닝 모델 학습부(140)는 합성곱 신경망 모델을 학습시킬 수 있다. 합성곱 신경망 모델의 학습을 위해 제1 객체의 위치 정보, 제2 객체의 위치 정보 및 제3 영상이 이용될 수 있다. 합성곱 신경망 모델에 대해 도 4 및 5를 참조하여 보다 상세히 설명한다.Referring again to FIG. 1, the object detection deep learning model learning unit 140 may learn an object detection deep learning model using position information of a first object, position information of a second object, and a third image. For example, the object detection deep learning model learning unit 140 can learn the artificial neural network model. The position information of the first object, the position information of the second object, and the third image may be used for learning of the compound neural network model. The combined-product neural network model will be described in more detail with reference to FIGS. 4 and 5. FIG.
도 4는 다채널 특징맵을 생성하는 합성곱 신경망의 일 실시 예를 설명하기 위한 도면이다.4 is a diagram for explaining an embodiment of a composite neural network for generating a multi-channel feature map.
본 개시의 합성곱 신경망은 입력 데이터(영상)로부터 테두리, 선 색 등과 같은 “특징들(features)”을 추출하기 위해 이용될 수 있으며, 복수의 계층들(layers)을 포함할 수 있다. 각각의 계층은 입력 데이터를 수신하고, 해당 계층의 입력 데이터를 처리하여 출력 데이터를 생성할 수 있다. 합성곱 신경망은 입력된 영상 또는 입력된 특징맵(feature map)을 필터 커널들(filter kernels)과 컨볼루션하여 생성한 특징맵을 출력 데이터로서 출력할 수 있다. 합성곱 신경망의 초기 계층들은 입력으로부터 에지들 또는 그레디언트들과 같은 낮은 레벨의 특징들을 추출하도록 동작될 수 있다. 신경망의 다음 계층들은 눈, 코 등과 같은 점진적으로 더 복잡한 특징들을 추출할 수 있다. 합성곱 신경망 기반의 영상 처리는 다양한 분야에 활용될 수 있다. 예컨대, 영상의 객체 인식(object recognition)을 위한 영상 처리 장치, 영상 복원(image reconstruction)을 위한 영상 처리 장치, 시맨틱 세그먼테이션(semantic segmentation)을 위한 영상 처리 장치, 장면 인식(scene recognition)을 위한 영상 처리 장치 등에 이용될 수 있다.The composite neural network of the present disclosure may be used to extract " features " such as borders, line colors, etc. from input data (images) and may include multiple layers. Each layer can receive input data and process the input data of the layer to generate output data. The composite neural network can output the feature map generated by convoluting the input image or the input feature map with filter kernels as output data. The initial layers of the composite product neural network may be operated to extract low level features such as edges or gradients from the input. The next layers of the neural network can extract gradually more complex features such as eyes, nose, and so on. The image processing based on the composite neural network can be applied to various fields. For example, image processing apparatuses for image object recognition, image processing apparatuses for image reconstruction, image processing apparatuses for semantic segmentation, image processing for scene recognition, Device or the like.
도 4를 참조하면, 입력 영상(410)은 합성곱 신경망(400)을 통해 처리됨으로써 특징맵 영상을 출력할 수 있다. 출력된 특징맵 영상은 전술한 다양한 분야에 활용될 수 있다.Referring to FIG. 4, the input image 410 may be processed through the composite neural network 400 to output a feature map image. The outputted feature map image can be utilized in various fields as described above.
합성곱 신경망(400)은 복수의 계층들(420, 430, 440)을 통해 처리될 수 있으며, 각 계층은 다채널 특징맵 영상들(425, 435)을 출력할 수 있다. 일 실시예에 따른 복수의 계층들(420, 430, 440)은 입력받은 데이터의 좌측 상단으로부터 우측 하단까지 일정한 크기의 필터를 적용하여 영상의 특징을 추출할 수 있다. 예를 들어, 복수의 계층들(420, 430, 440)은 입력 데이터의 좌측 상단 NxM 픽셀에 가중치를 곱해서 특징맵의 좌측 상단의 한 뉴런에 매핑시킨다. 이 경우, 곱해지는 가중치도 NxM가 될 것이다. 상기 NxM은 예컨대, 3x3일 수 있으나, 이에 한정되지 않는다. 이후, 동일한 과정으로, 복수의 계층들(420, 430, 440)은 입력 데이터를 좌측에서 우측으로, 그리고 상단에서 하단으로 k 칸씩 스캔하면서 가중치를 곱하여 특징맵의 뉴런에 매핑한다. 상기 k 칸은 합성곱 수행시 필터를 이동시킬 간격(stride)을 의미하며, 출력 데이터의 크기를 조절하기 위해 적절히 설정될 수 있다. 예컨대, k는 1일 수 있다. 상기 NxM 가중치는 필터 또는 필터 커널이라고 한다. 즉, 복수의 계층들(420, 430, 440)에서 필터를 적용하는 과정은 필터 커널과의 컨볼루션 연산을 수행하는 과정이며, 그 결과 추출된 결과물을 “특징맵(feature map)” 또는 “특징맵 영상”이라고 한다. 또한, 컨볼루션 연산이 수행된 계층을 합성곱 계층이라 할 수 있다.The composite neural network 400 may be processed through a plurality of layers 420, 430, and 440, and each layer may output multi-channel feature map images 425 and 435. A plurality of layers 420, 430, and 440 according to an exemplary embodiment may extract a feature of an image by applying a filter having a predetermined size from a left top end to a right bottom end of input data. For example, the plurality of layers 420, 430, and 440 multiply the weights by the weighted upper left NxM pixels of the input data and map them to a neuron at the upper left of the feature map. In this case, the weight to be multiplied will also be NxM. The NxM may be, for example, 3x3, but is not limited thereto. Thereafter, in the same process, the plurality of layers 420, 430, and 440 scans input data from left to right and from top to bottom by k squares, and maps the weights to neurons of the feature map. The k-th column means a stride for moving the filter when performing the product multiplication, and can be set appropriately to adjust the size of the output data. For example, k may be one. The NxM weight is called a filter or filter kernel. That is, the process of applying the filter in the plurality of layers 420, 430, and 440 is a process of performing a convolution operation with the filter kernel. As a result, the extracted result is called a "feature map" Map image ". In addition, the layer on which the convolution operation is performed may be referred to as a convolution layer.
“다채널 특징맵(multiple-channel feature map)”의 용어는 복수의 채널에 대응하는 특징맵들의 세트를 의미하고, 예를 들어 복수의 영상 데이터일 수 있다. 다채널 특징맵들은 합성곱 신경망의 임의의 계층에서의 입력일 수 있고, 컨볼루션 연산 등의 특징맵 연산 결과에 따른 출력일 수 있다. 일 실시예에 따르면, 다채널 특징맵들(425, 435)은 합성곱 신경망의 “특징 추출 계층들” 또는 “컨볼루션 계층들”이라고도 불리는 복수의 계층들(420, 430, 440)에 의해 생성된다. 각각의 계층은 순차적으로 이전 계층에서 생성된 다채널 특징맵들을 수신하고, 출력으로서 그 다음의 다채널 특징맵들을 생성할 수 있다. 최종적으로 L(L은 정수)번째 계층(440)에서는 L-1번째 계층(미도시)에서 생성한 다채널 특징맵들을 수신하여 미도시의 다채널 특징맵들을 생성할 수 있다.The term " multiple-channel feature map " refers to a set of feature maps corresponding to a plurality of channels, and may be, for example, a plurality of image data. The multi-channel feature maps may be inputs at any layer of the composite neural network, and may be output according to feature map computation results such as convolution operations. According to one embodiment, the multi-channel feature maps 425, 435 are generated by a plurality of layers 420, 430, 440, also referred to as "feature extraction layers" or "convolutional layers" do. Each layer may sequentially receive the multi-channel feature maps generated in the previous layer and generate the next multi-channel feature maps as output. Finally, in the L (L is an integer) th layer 440, multi-channel feature maps generated in the (L-1) th layer (not shown) are received to generate multi-channel feature maps.
도 4를 참조하면, 채널 K1개를 가지는 특징맵들(425)은 입력 영상(410)에 대해 계층 1에서의 특징맵 연산(420)에 따른 출력이고, 또한 계층 2에서의 특징맵 연산(430)을 위한 입력이 된다. 또한, 채널 K2개를 가지는 특징맵들(435)은 입력 특징맵들(425)에 대해 계층 2에서의 특징맵 연산(430)에 따른 출력이고, 또한 계층 3에서의 특징맵 연산(미도시)을 위한 입력이 된다.4, the feature maps 425 having the channel K1 are outputs according to the feature map operation 420 in the layer 1 for the input image 410 and the feature map operation 430 in the layer 2 ≪ / RTI > Feature maps 435 with channel K2 are also outputs according to feature map operation 430 at layer 2 for input feature maps 425 and feature map operations (not shown) at layer 3, ≪ / RTI >
도 4를 참조하면, 첫 번째 계층(420)에서 생성된 다채널 특징맵들(425)은 K1(K1은 정수)개의 채널에 대응하는 특징맵들을 포함한다. 또한, 두 번째 계층(430)에서 생성된 다채널 특징맵들(435)은 K2(K2은 정수)개의 채널에 대응하는 특징맵들을 포함한다. 여기서, 채널의 개수를 나타내는 K1 및 K2는, 첫 번째 계층(420) 및 두 번째 계층(430)에서 각각 사용된 필터 커널의 개수와 대응될 수 있다. 즉, M(M은 1 이상 L-1 이하의 정수)번째 계층에서 생성된 다채널 특징맵들의 개수는 M번째 계층에서 사용된 필터 커널의 개수와 동일할 수 있다.Referring to FIG. 4, the multi-channel feature maps 425 generated in the first layer 420 include feature maps corresponding to K1 (K1 is an integer) channels. Also, the multi-channel feature maps 435 generated in the second layer 430 include feature maps corresponding to K2 (K2 is an integer) channels. Here, K1 and K2, which represent the number of channels, may correspond to the number of filter kernels used in the first layer 420 and the second layer 430, respectively. That is, the number of multi-channel feature maps generated in the Mth layer (M is an integer equal to or greater than 1 and equal to or smaller than L-1) may be equal to the number of filter kernels used in the Mth layer.
도 5는 본 개시의 일 실시 예에 따른 다중 객체 영상을 이용하여 합성곱 신경망을 학습시키는 과정을 나타내는 도면이다. 도 5의 객체 검출 딥러닝 모델 학습부(500)는 도 1의 객체 검출 딥러닝 모델 학습부(140)의 일 실시 예이다. 도 5를 참조하면, 학습에 필요한 데이터로서 단일 객체 영상들과 객체들의 위치 정보를 이용하여 합성된 다중 객체 영상(510)을 이용할 수 있다. 객체 검출 딥러닝 모델 학습부(500)는 다중 객체 영상(510)에 대해 단일 객체 각각의 위치 정보를 함께 사영시킴으로써 합성곱 신경망(520)을 학습시킬 수 있다. 일 실시 예에 따를 때, 전자 통관 시스템에서 X-Ray 검색기를 통과하는 화물 내에 복수의 객체가 존재하면, 복수의 객체들이 겹쳐진 X-Ray 영상이 획득될 수 있는데, 본 개시에 따르면, 영상 내의 복수의 객체의 위치 정보와 함께 각각의 객체의 형상을 이용하여 합성곱 신경망을 학습시키기 때문에, 객체 간 겹침이 발생하여도 보다 정확한 검출 결과가 획득될 수 있다.5 is a diagram illustrating a process of learning a composite-object neural network using a multi-object image according to an embodiment of the present disclosure. The object detection deep learning model learning unit 500 of FIG. 5 is an embodiment of the object detection deep learning model learning unit 140 of FIG. Referring to FIG. 5, a multi-object image 510 synthesized using single object images and location information of objects may be used as data necessary for learning. The object detection deep learning model learning unit 500 can learn the composite neural network 520 by projecting the position information of each of the single objects together with the multi object image 510. According to one embodiment, when there are a plurality of objects in the cargo passing through the X-ray scanner in the e-clearance system, a superimposed X-Ray image of a plurality of objects can be obtained. According to this disclosure, Since the artificial neural network is learned by using the shape of each object together with the position information of the objects of the object, the more accurate detection result can be obtained even when the overlap between the objects occurs.
도 6은 본 개시의 일 실시 예에 따른 영상 처리 장치를 이용하여 실제 영상을 분석하는 과정을 설명하기 위한 도면이다.6 is a diagram for explaining a process of analyzing an actual image using an image processing apparatus according to an embodiment of the present disclosure.
도 6의 영상 처리 장치(600)는 도 1의 영상 처리 장치(100)의 일 실시 예이다. 도 6의 영상 처리 장치(600)가 포함하는 객체 영역 추출부(604), 객체 위치 정보 생성부(606), 영상 합성부(608) 및 객체 검출 딥러닝 모델 학습부(610)의 동작은 도 1의 영상 처리 장치(100)에 포함된 객체 영역 추출부(110), 객체 위치 정보 생성부(120), 영상 합성부(130) 및 객체 검출 딥러닝 모델 학습부(140)의 동작과 동일하다. 따라서, 영상 처리 장치(600)는 복수의 단일 객체 영상(602)에 대해 객체 영역 추출부(604), 객체 위치 정보 생성부(606), 영상 합성부(608) 및 객체 검출 딥러닝 모델 학습부(610)에서의 동작을 수행함으로써 학습된 합성곱 신경망 모델을 생성할 수 있다. 객체 검출 장치(620)는 실제 환경의 다중 객체를 포함하는 영상(622)에 대해 영상 처리 장치(600)에서 학습된 합성곱 신경망 모델을 이용하여 각각의 객체를 검출할 수 있다. 일 실시 예에 따를 때, 전자 통관 시스템에 본 개시의 발명이 적용되는 경우, 본 개시의 영상 처리 장치(600)는 X-Ray 영상 내 단일 객체 영역 추출을 기반으로 새롭게 다중 객체 포함 영상을 생성할 수 있다. 또한 객체 검출 장치(620)는 X-Ray 검색기를 통과하는 화물 내 포함된 다중 객체가 존재하는 영역을 찾을 수 있다. 따라서, X-Ray 영상에 대해 객체의 위치를 자동적으로 추출함으로써, 판독원이 보다 수월하게 영상 검사 작업을 수행할 수 있도록 할 수 있고, 또한 추출된 객체와 화물 내 객체의 수량 정보 등을 포함하는 전산 정보를 비교하는 업무 등에 이용될 수 있다.The image processing apparatus 600 of FIG. 6 is an embodiment of the image processing apparatus 100 of FIG. The operations of the object region extracting unit 604, the object position information generating unit 606, the image synthesizing unit 608 and the object detecting deep learning model learning unit 610 included in the image processing apparatus 600 of FIG. The object position extracting unit 110, the object position information generating unit 120, the image synthesizing unit 130 and the object detecting deep learning model learning unit 140 included in the image processing apparatus 100 of FIG. 1 . Accordingly, the image processing apparatus 600 includes an object region extracting unit 604, an object position information generating unit 606, an image synthesizing unit 608, and an object detecting deep learning model learning unit 604 for a plurality of single object images 602, Lt; RTI ID = 0.0 > 610 < / RTI > The object detecting apparatus 620 can detect each object using the artificial neural network model learned in the image processing apparatus 600 for an image 622 including multiple objects in a real environment. According to one embodiment, when the present disclosure is applied to an electronic clearance system, the image processing apparatus 600 of the present disclosure generates a new multi-object embedded image based on a single object region extraction in an X-ray image . The object detection apparatus 620 can also find an area where there are multiple objects contained in the cargo passing through the X-ray scanner. Therefore, by automatically extracting the position of the object with respect to the X-ray image, it is possible to more easily perform the image inspection operation by the readout source, and further, the information including the extracted object and the quantity information of the object in the cargo And can be used for comparison of computerized information.
도 7은 본 개시의 일 실시 예에 따른 영상 처리 방법을 설명하기 위한 도면이다.7 is a diagram for explaining an image processing method according to an embodiment of the present disclosure.
S700 단계에서, 제1 객체를 포함하는 제1 영상 및 제2 객체를 포함하는 제2 영상을 입력 받아, 제1 영상 및 제2 영상의 각각에 대해 객체와 배경을 구분할 수 있다. 예컨대, 입력 영상의 픽셀값과 소정의 임계값을 비교하여 픽셀값을 이진화하고, 이진화된 픽셀값을 그룹핑함으로써 입력 영상에 포함된 객체를 구분할 수 있다.In step S700, the first image including the first object and the second image including the second object may be input, and the object and the background may be distinguished for each of the first image and the second image. For example, a pixel value of an input image may be compared with a predetermined threshold value to binarize the pixel value, and binarized pixel values may be grouped to distinguish objects included in the input image.
S710 단계에서, 구분된 제1 객체 및 제2 객체의 위치 정보를 생성할 수 있다. 예컨대, 객체 영역을 둘러싸는 사각형 박스를 특정하고, 특정된 사각형 박스에 기초하여, S700 단계에서 구분된 객체의 위치 정보를 생성할 수 있다.In step S710, location information of the first object and the second object may be generated. For example, a rectangular box surrounding the object area may be specified, and position information of the object classified in step S700 may be generated based on the specified rectangular box.
S720 단계에서, 제1 객체의 위치 정보 및 제2 객체의 위치 정보에 기초하여, 제1 객체 및 제2 객체를 포함하는 제3 영상을 생성할 수 있다. 예컨대, S710 단계에서 획득된 제1 객체의 위치 정보 및 제2 객체의 위치 정보에 기초하여 제1 객체 및 제2 객체를 포함하는 제3 영상을 생성할 수 있다.In step S720, a third image including the first object and the second object may be generated based on the position information of the first object and the position information of the second object. For example, the third image including the first object and the second object may be generated based on the position information of the first object and the position information of the second object obtained in step S710.
S730 단계에서, 제1 객체의 위치 정보, 제2 객체의 위치 정보 및 제3 영상을 이용하여 객체 검출 딥러닝 모델을 학습할 수 있다. 예컨대, 합성곱 신경망 모델을 학습시킬 수 있으며, 합성곱 신경망 모델의 학습을 위해 S710 단계에서 생성된 제1 객체의 위치 정보와 제2 객체의 위치 정보 및 S720 단계에서 생성된 제3 영상이 이용될 수 있다.In step S730, the object detection deep learning model can be learned using the position information of the first object, the position information of the second object, and the third image. For example, it is possible to learn the compound neural network model. In order to learn the neural network model, the position information of the first object generated in step S710, the position information of the second object, and the third image generated in step S720 are used .
도 1 내지 도 7을 참조하여 설명한 실시 예에서는 단일 객체를 포함하는 영상을 입력 받아, 객체와 배경을 분리하는 예를 설명하였다. 그러나, 반드시 이에 한정되지 않으며, 입력 영상이 둘 이상의 객체를 포함하는 영상일 수도 있다. 이 경우, 입력 영상으로부터 둘 이상의 객체와 배경을 구분하고, 둘 이상의 객체의 각각에 대해 위치 정보를 생성하여 이용할 수도 있다. 또한, 이 경우, 도 2를 참조한 설명에서, 복수의 픽셀 그룹이 형성된 경우, 가장 큰 형태로 형성된 픽셀 그룹뿐만 아니라 다른 픽셀 그룹에 대해서도 각각 객체에 대한 영역인 것으로 결정할 수 있다. 각각의 결정된 객체의 위치 정보를 생성하는 과정은 하나의 객체를 포함하는 영상에 대해 설명한 바와 동일하다.In the embodiment described with reference to FIGS. 1 to 7, an example of receiving an image including a single object and separating an object and a background has been described. However, the present invention is not limited thereto, and the input image may be an image including two or more objects. In this case, it is possible to distinguish two or more objects and backgrounds from the input image, and generate position information for each of the two or more objects. In this case, in the description with reference to FIG. 2, when a plurality of pixel groups are formed, it can be determined that not only the pixel groups formed in the largest shape but also the other pixel groups are regions for the objects. The process of generating the position information of each determined object is the same as described for the image including one object.
또한, 상기 설명한 실시 예에서는 2개의 단일 객체 영상 및 각 객체의 위치 정보에 기초하여 제3 영상을 생성하는 것으로 설명하였다. 그러나, 반드시 이에 한정되지 않으며, 둘 이상의 단일 객체 영상 및 각 객체의 위치 정보를 이용하여 제3 영상을 생성할 수도 있다. 즉, 본 개시에 따른 영상 처리 방법 및 장치는 각각이 하나 이상의 객체를 포함하는 둘 이상의 영상 및 각 객체의 위치 정보에 기초하여 제3 영상을 생성할 수 있다.Also, in the above-described embodiment, it has been described that the third image is generated based on the two single object images and the position information of the respective objects. However, the present invention is not limited to this, and a third image may be generated using two or more single object images and position information of each object. That is, the image processing method and apparatus according to the present disclosure can generate a third image based on two or more images each including one or more objects and position information of each object.
또한, 본 개시의 딥러닝 기반의 모델은 완전 합성곱 신경망(완전 컨볼루션 뉴럴 네트워크, fully convolutional neural network), 합성곱 신경망(컨볼루션 뉴럴 네트워크, convolutional neural network), 순환 신경망(회귀 뉴럴 네트워크, recurrent neural network), 제한 볼츠만 머신(restricted Boltzmann machine, RBM) 및 심층 신뢰 신경망(deep belief neural network, DBN) 중 적어도 하나를 포함할 수 있으나, 이에 한정되지 않는다. 또는, 딥러닝 이외의 머신 러닝 방법도 포함할 수 있다. 또는 딥러닝과 머신 러닝을 결합한 하이브리드 형태의 모델도 포함할 수 있다. 예컨대, 딥러닝 기반의 모델을 적용하여 영상의 특징을 추출하고, 상기 추출된 특징에 기초하여 영상을 분류하거나 인식할 때는 머신 러닝 기반의 모델을 적용할 수도 있다. 머신 러닝 기반의 모델은 서포트 벡터 머신(Support Vector Machine, SVM), 에이다부스트(AdaBoost) 등을 포함할 수 있으나, 이에 한정되지 않는다.The deep learning based model of the present disclosure can also be applied to a fully convoluted neural network, a convolutional neural network, a recurrent neural network, but is not limited to, at least one of a neural network, a restricted Boltzmann machine (RBM), and a deep belief neural network (DBN). Alternatively, a machine running method other than deep running may be included. Or a hybrid model combining deep running and machine running. For example, a feature of an image may be extracted by applying a deep learning-based model, and a model based on a machine learning may be applied when an image is classified or recognized based on the extracted feature. The machine learning based model may include, but is not limited to, a support vector machine (SVM), an AdaBoost, and the like.
본 개시의 예시적인 방법들은 설명의 명확성을 위해서 동작의 시리즈로 표현되어 있지만, 이는 단계가 수행되는 순서를 제한하기 위한 것은 아니며, 필요한 경우에는 각각의 단계가 동시에 또는 상이한 순서로 수행될 수도 있다. 본 개시에 따른 방법을 구현하기 위해서, 예시하는 단계에 추가적으로 다른 단계를 포함하거나, 일부의 단계를 제외하고 나머지 단계를 포함하거나, 또는 일부의 단계를 제외하고 추가적인 다른 단계를 포함할 수도 있다.Although the exemplary methods of this disclosure are represented by a series of acts for clarity of explanation, they are not intended to limit the order in which the steps are performed, and if necessary, each step may be performed simultaneously or in a different order. In order to implement the method according to the present disclosure, the illustrative steps may additionally include other steps, include the remaining steps except for some steps, or may include additional steps other than some steps.
본 개시의 다양한 실시 예는 모든 가능한 조합을 나열한 것이 아니고 본 개시의 대표적인 양상을 설명하기 위한 것이며, 다양한 실시 예에서 설명하는 사항들은 독립적으로 적용되거나 또는 둘 이상의 조합으로 적용될 수도 있다.The various embodiments of the disclosure are not intended to be all-inclusive and are intended to illustrate representative aspects of the disclosure, and the features described in the various embodiments may be applied independently or in a combination of two or more.
또한, 본 개시의 다양한 실시 예는 하드웨어, 펌웨어(firmware), 소프트웨어, 또는 그들의 결합 등에 의해 구현될 수 있다. 하드웨어에 의한 구현의 경우, 하나 또는 그 이상의 ASICs(Application Specific Integrated Circuits), DSPs(Digital Signal Processors), DSPDs(Digital Signal Processing Devices), PLDs(Programmable Logic Devices), FPGAs(Field Programmable Gate Arrays), 범용 프로세서(general processor), 컨트롤러, 마이크로 컨트롤러, 마이크로 프로세서 등에 의해 구현될 수 있다. In addition, various embodiments of the present disclosure may be implemented by hardware, firmware, software, or a combination thereof. In the case of hardware implementation, one or more application specific integrated circuits (ASICs), digital signal processors (DSPs), digital signal processing devices (DSPDs), programmable logic devices (PLDs), field programmable gate arrays A general processor, a controller, a microcontroller, a microprocessor, and the like.
본 개시의 범위는 다양한 실시 예의 방법에 따른 동작이 장치 또는 컴퓨터 상에서 실행되도록 하는 소프트웨어 또는 머신-실행가능한 명령들(예를 들어, 운영체제, 애플리케이션, 펌웨어(firmware), 프로그램 등), 및 이러한 소프트웨어 또는 명령 등이 저장되어 장치 또는 컴퓨터 상에서 실행 가능한 비-일시적 컴퓨터-판독가능 매체(non-transitory computer-readable medium)를 포함한다.The scope of the present disclosure is to be accorded the broadest interpretation as understanding of the principles of the invention, as well as software or machine-executable instructions (e.g., operating system, applications, firmware, Instructions, and the like are stored and are non-transitory computer-readable medium executable on the device or computer.
본 발명은 다중 객체를 포함하는 영상을 처리하는데 이용될 수 있다.The present invention can be used to process images containing multiple objects.

Claims (14)

  1. 제1 객체를 포함하는 제1 영상 및 제2 객체를 포함하는 제2 영상을 입력 받아, 상기 제1 영상 및 상기 제2 영상의 각각에 대해 상기 객체와 배경을 구분하는 객체 영역 추출부;An object region extracting unit that receives a first image including a first object and a second image including a second object and separates the object and the background for each of the first image and the second image;
    상기 구분된 제1 객체 및 제2 객체의 위치 정보를 생성하는 객체 위치 정보 생성부;An object position information generating unit for generating position information of the first object and the second object;
    상기 제1 객체의 위치 정보 및 상기 제2 객체의 위치 정보에 기초하여, 상기 제1 객체 및 상기 제2 객체를 포함하는 제3 영상을 생성하는 영상 합성부; 및An image synthesizer for generating a third image including the first object and the second object based on the position information of the first object and the position information of the second object; And
    상기 제1 객체의 위치 정보, 상기 제2 객체의 위치 정보 및 상기 제3 영상을 이용하여 객체 검출 딥러닝 모델을 학습하는 객체 검출 딥러닝 모델 학습부를 포함하는 영상 처리 장치.An object detection deep learning model learning unit that learns an object detection deep learning model using position information of the first object, position information of the second object, and the third image.
  2. 제1항에 있어서,The method according to claim 1,
    상기 객체 영역 추출부는,The object region extracting unit may extract,
    상기 입력 영상의 픽셀값과 소정의 임계값을 비교하여 상기 픽셀값을 이진화하고,A pixel value of the input image is compared with a predetermined threshold value to binarize the pixel value,
    상기 이진화된 픽셀값을 그룹핑함으로써 상기 입력 영상에 포함된 객체를 구분하는 영상 처리 장치.And classifies the objects included in the input image by grouping the binarized pixel values.
  3. 제1항에 있어서,The method according to claim 1,
    상기 객체 위치 정보 생성부는,Wherein the object position information generating unit comprises:
    상기 구분된 객체를 둘러싸는 사각형 박스(bounding box)를 특정하고,Specifying a bounding box surrounding the segmented object,
    상기 특정된 사각형 박스에 기초하여, 상기 구분된 객체의 객체 위치 정보를 생성하는 영상 처리 장치.And generates object position information of the separated object based on the specified rectangular box.
  4. 제1항에 있어서,The method according to claim 1,
    상기 객체 검출 딥러닝 모델은 합성곱 신경망(Convolutional Neural Network, CNN)을 포함하고,The object detection deep learning model includes a Convolutional Neural Network (CNN)
    상기 객체 검출 딥러닝 모델 학습부는,The object detection deep learning model learning unit may include:
    상기 제3 영상을 학습할 때, 상기 제1 객체의 위치 정보 및 상기 제2 객체의 위치 정보를 함께 사영시킴으로써, 상기 합성곱 신경망의 특징 맵(feature map)을 생성하는 영상 처리 장치. And generates a feature map of the composite neural network by projecting the position information of the first object and the position information of the second object together when the third image is learned.
  5. 객체를 포함하는 영상을 입력 받아, 상기 객체와 배경을 구분하는 객체 영역 추출부를 포함하고,And an object region extracting unit for receiving an image including the object and distinguishing the object and the background,
    상기 객체 영역 추출부는,The object region extracting unit may extract,
    상기 입력 영상의 픽셀값과 소정의 임계값을 비교하여 상기 픽셀값을 이진화하고,A pixel value of the input image is compared with a predetermined threshold value to binarize the pixel value,
    상기 이진화된 픽셀값을 그룹핑함으로써 상기 입력 영상에 포함된 객체를 구분하는 영상 처리 장치.And classifies the objects included in the input image by grouping the binarized pixel values.
  6. 제5항에 있어서,6. The method of claim 5,
    상기 구분된 객체의 위치 정보를 생성하는 객체 위치 정보 생성부를 더 포함하고,And an object position information generating unit for generating position information of the divided object,
    상기 객체 위치 정보 생성부는,Wherein the object position information generating unit comprises:
    상기 구분된 객체를 둘러싸는 사각형 박스를 특정하고,Specifying a rectangular box surrounding the divided object,
    상기 특정된 사각형 박스에 기초하여, 상기 구분된 객체의 객체 위치 정보를 생성하는 영상 처리 장치.And generates object position information of the separated object based on the specified rectangular box.
  7. 제1 객체를 포함하는 제1 영상 및 제2 객체를 포함하는 제2 영상을 입력 받아, 상기 제1 영상 및 상기 제2 영상의 각각에 대해 상기 객체와 배경을 구분하는 객체 영역 추출 단계;An object region extracting step of receiving a first image including a first object and a second image including a second object and distinguishing the object and the background for each of the first image and the second image;
    상기 구분된 제1 객체 및 제2 객체의 위치 정보를 생성하는 객체 위치 정보 생성 단계;An object position information generating step of generating position information of the first object and the second object;
    상기 제1 객체의 위치 정보 및 상기 제2 객체의 위치 정보에 기초하여, 상기 제1 객체 및 상기 제2 객체를 포함하는 제3 영상을 생성하는 영상 합성 단계; 및An image synthesis step of generating a third image including the first object and the second object based on the position information of the first object and the position information of the second object; And
    상기 제1 객체의 위치 정보, 상기 제2 객체의 위치 정보 및 상기 제3 영상을 이용하여 객체 검출 딥러닝 모델을 학습하는 객체 검출 딥러닝 모델 학습 단계를 포함하는 영상 처리 방법.And an object detection deep learning model learning step of learning an object detection deep learning model using the position information of the first object, the position information of the second object, and the third image.
  8. 제7항에 있어서,8. The method of claim 7,
    상기 객체 영역 추출 단계는,Wherein the object region extracting step comprises:
    상기 입력 영상의 픽셀값과 소정의 임계값을 비교하여 상기 픽셀값을 이진화하고,A pixel value of the input image is compared with a predetermined threshold value to binarize the pixel value,
    상기 이진화된 픽셀값을 그룹핑함으로써 상기 입력 영상에 포함된 객체를 구분하는 영상 처리 방법.And grouping the binarized pixel values to separate objects included in the input image.
  9. 제7항에 있어서,8. The method of claim 7,
    상기 객체 위치 정보 생성 단계는,Wherein the object position information generation step comprises:
    상기 구분된 객체를 둘러싸는 사각형 박스(bounding box)를 특정하고,Specifying a bounding box surrounding the segmented object,
    상기 특정된 사각형 박스에 기초하여, 상기 구분된 객체의 객체 위치 정보를 생성하는 영상 처리 방법.And generating object position information of the separated object based on the specified rectangular box.
  10. 제7항에 있어서,8. The method of claim 7,
    상기 객체 검출 딥러닝 모델은 합성곱 신경망(Convolutional Neural Network, CNN)을 포함하고,The object detection deep learning model includes a Convolutional Neural Network (CNN)
    상기 객체 검출 딥러닝 모델 학습 단계는,The object detection deep learning model learning step includes:
    상기 제3 영상을 학습할 때, 상기 제1 객체의 위치 정보 및 상기 제2 객체의 위치 정보를 함께 사영시킴으로써, 상기 합성곱 신경망의 특징 맵(feature map)을 생성하는 영상 처리 방법. And generating a feature map of the composite neural network by projecting the position information of the first object and the position information of the second object when the third image is learned.
  11. 객체를 포함하는 영상을 입력 받아, 상기 객체와 배경을 구분하는 객체 영역 추출 단계를 포함하고,And an object region extracting step of receiving an image including the object and distinguishing the object and the background,
    상기 객체 영역 추출 단계는,Wherein the object region extracting step comprises:
    상기 입력 영상의 픽셀값과 소정의 임계값을 비교하여 상기 픽셀값을 이진화하고,A pixel value of the input image is compared with a predetermined threshold value to binarize the pixel value,
    상기 이진화된 픽셀값을 그룹핑함으로써 상기 입력 영상에 포함된 객체를 구분하는 영상 처리 방법.And grouping the binarized pixel values to separate objects included in the input image.
  12. 제11항에 있어서,12. The method of claim 11,
    상기 구분된 객체의 위치 정보를 생성하는 객체 위치 정보 생성 단계를 더 포함하고,Further comprising an object location information generating step of generating location information of the separated object,
    상기 객체 위치 정보 생성 단계는,Wherein the object position information generation step comprises:
    상기 구분된 객체를 둘러싸는 사각형 박스를 특정하고,Specifying a rectangular box surrounding the divided object,
    상기 특정된 사각형 박스에 기초하여, 상기 구분된 객체의 객체 위치 정보를 생성하는 영상 처리 방법.And generating object position information of the separated object based on the specified rectangular box.
  13. 프로그램을 기록한 컴퓨터로 판독 가능한 기록 매체로서,A computer-readable recording medium storing a program,
    상기 프로그램은,The program includes:
    제1 객체를 포함하는 제1 영상 및 제2 객체를 포함하는 제2 영상을 입력 받아, 상기 제1 영상 및 상기 제2 영상의 각각에 대해 상기 객체와 배경을 구분하는 객체 영역 추출 단계;An object region extracting step of receiving a first image including a first object and a second image including a second object and distinguishing the object and the background for each of the first image and the second image;
    상기 구분된 제1 객체 및 제2 객체의 위치 정보를 생성하는 객체 위치 정보 생성 단계;An object position information generating step of generating position information of the first object and the second object;
    상기 제1 객체의 위치 정보 및 상기 제2 객체의 위치 정보에 기초하여, 상기 제1 객체 및 상기 제2 객체를 포함하는 제3 영상을 생성하는 영상 합성 단계; 및An image synthesis step of generating a third image including the first object and the second object based on the position information of the first object and the position information of the second object; And
    상기 제1 객체의 위치 정보, 상기 제2 객체의 위치 정보 및 상기 제3 영상을 이용하여 객체 검출 딥러닝 모델을 학습하는 객체 검출 딥러닝 모델 학습 단계를 실행하는 컴퓨터로 판독 가능한 기록 매체.And an object detection deep learning model learning step of learning an object detection deep learning model using the position information of the first object, the position information of the second object, and the third image.
  14. 프로그램을 기록한 컴퓨터로 판독 가능한 기록 매체로서,A computer-readable recording medium storing a program,
    상기 프로그램은,The program includes:
    객체를 포함하는 영상을 입력 받아, 상기 객체와 배경을 구분하는 객체 영역 추출 단계를 실행하고,An object region extracting step of receiving an image including an object and distinguishing the object and the background,
    상기 객체 영역 추출 단계는,Wherein the object region extracting step comprises:
    상기 입력 영상의 픽셀값과 소정의 임계값을 비교하여 상기 픽셀값을 이진화하고,A pixel value of the input image is compared with a predetermined threshold value to binarize the pixel value,
    상기 이진화된 픽셀값을 그룹핑함으로써 상기 입력 영상에 포함된 객체를 구분하는 컴퓨터로 판독 가능한 기록 매체.And classifying the objects included in the input image by grouping the binarized pixel values.
PCT/KR2018/016862 2017-12-29 2018-12-28 Image processing device and method for detecting multiple objects WO2019132589A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2017-0183858 2017-12-29
KR1020170183858A KR101932009B1 (en) 2017-12-29 2017-12-29 Image processing apparatus and method for multiple object detection

Publications (1)

Publication Number Publication Date
WO2019132589A1 true WO2019132589A1 (en) 2019-07-04

Family

ID=65010274

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2018/016862 WO2019132589A1 (en) 2017-12-29 2018-12-28 Image processing device and method for detecting multiple objects

Country Status (2)

Country Link
KR (1) KR101932009B1 (en)
WO (1) WO2019132589A1 (en)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102646695B1 (en) * 2019-01-15 2024-03-12 포틀랜드 스테이트 유니버시티 Feature pyramid warping for video frame interpolation
US10402978B1 (en) * 2019-01-25 2019-09-03 StradVision, Inc. Method for detecting pseudo-3D bounding box based on CNN capable of converting modes according to poses of objects using instance segmentation and device using the same
KR102145220B1 (en) * 2019-02-14 2020-08-18 엔에이치엔 주식회사 Method and apparatus for convert two-dimensional image to three-dimensional image utilizing deep learning
KR102315854B1 (en) * 2019-02-20 2021-10-20 경북대학교 산학협력단 Deep learning-based learning data generation method and learning data generation system
KR102193329B1 (en) * 2019-03-27 2020-12-22 한국원자력 통제기술원 Two dimensional image similarty comparison system using three dimensional model for identifing strategic material and method thereof
KR102247359B1 (en) * 2019-07-31 2021-05-04 (주)유디피 Image analysis system and method for remote monitoring
KR102315311B1 (en) * 2019-10-31 2021-10-19 재단법인대구경북과학기술원 Deep learning based object detection model training method and an object detection apparatus to execute the object detection model
KR20210068713A (en) 2019-12-02 2021-06-10 주식회사 피디젠 System for predicting disease progression using multiple medical data based on deep learning
KR102139582B1 (en) * 2019-12-05 2020-07-29 주식회사 인텔리빅스 Apparatus for CCTV Video Analytics Based on Multiple ROIs and an Object Detection DCNN and Driving Method Thereof
KR102295202B1 (en) * 2020-01-31 2021-08-27 중앙대학교 산학협력단 Multiple object detection method and apparatus
CN111753730A (en) * 2020-06-24 2020-10-09 国网电子商务有限公司 Image examination method and device
KR102571457B1 (en) * 2021-11-29 2023-08-28 (주)테슬라시스템 Occlusion Image Making Method for Artificial Intelligence Learning

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140035660A (en) * 2012-09-14 2014-03-24 한국전자통신연구원 Method and apparatus for extracting object region segmentation
KR20140086491A (en) * 2012-12-28 2014-07-08 삼성전자주식회사 photographing device for making a composion image and method thereof
KR20150043958A (en) * 2013-10-15 2015-04-23 한국전자통신연구원 Apparatus and method for recognizing object in image
KR20160096460A (en) * 2015-02-05 2016-08-16 삼성전자주식회사 Recognition system based on deep learning including a plurality of classfier and control method thereof
KR20160108740A (en) * 2015-03-06 2016-09-20 중앙대학교 산학협력단 Method and apparatus for recognizing worker in working site image data

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140035660A (en) * 2012-09-14 2014-03-24 한국전자통신연구원 Method and apparatus for extracting object region segmentation
KR20140086491A (en) * 2012-12-28 2014-07-08 삼성전자주식회사 photographing device for making a composion image and method thereof
KR20150043958A (en) * 2013-10-15 2015-04-23 한국전자통신연구원 Apparatus and method for recognizing object in image
KR20160096460A (en) * 2015-02-05 2016-08-16 삼성전자주식회사 Recognition system based on deep learning including a plurality of classfier and control method thereof
KR20160108740A (en) * 2015-03-06 2016-09-20 중앙대학교 산학협력단 Method and apparatus for recognizing worker in working site image data

Also Published As

Publication number Publication date
KR101932009B1 (en) 2018-12-24

Similar Documents

Publication Publication Date Title
WO2019132589A1 (en) Image processing device and method for detecting multiple objects
US20210407076A1 (en) Multi-sample Whole Slide Image Processing in Digital Pathology via Multi-resolution Registration and Machine Learning
CN103578116B (en) For tracking the apparatus and method of object
US11023715B2 (en) Method and apparatus for expression recognition
WO2019132590A1 (en) Method and device for transforming image
WO2019132588A1 (en) Image analysis device and method based on image feature and context
WO2019132592A1 (en) Image processing device and method
CN107273832B (en) License plate recognition method and system based on integral channel characteristics and convolutional neural network
KR20160143494A (en) Saliency information acquisition apparatus and saliency information acquisition method
CN107305635A (en) Object identifying method, object recognition equipment and classifier training method
TW202014984A (en) Image processing method, electronic device, and storage medium
JP2014531097A (en) Text detection using multi-layer connected components with histograms
CN112633297B (en) Target object identification method and device, storage medium and electronic device
CN103093274B (en) Method based on the people counting of video
WO2015182904A1 (en) Area of interest studying apparatus and method for detecting object of interest
CN107766864B (en) Method and device for extracting features and method and device for object recognition
JP2011003180A (en) Sky detection system and method used in image collection device
EP3756160A1 (en) System and method for fast object detection
Lu et al. Robust 3D organ localization with dual learning architectures and fusion
WO2024077781A1 (en) Convolutional neural network model-based image recognition method and apparatus, and terminal device
CN113065568A (en) Target detection, attribute identification and tracking method and system
WO2019132093A1 (en) Barcode detection device and barcode detection method using same
KR20190059083A (en) Apparatus and method for recognition marine situation based image division
CN112884702B (en) Polyp identification system and method based on endoscope image
CN112686122B (en) Human body and shadow detection method and device, electronic equipment and storage medium

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18893422

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18893422

Country of ref document: EP

Kind code of ref document: A1