WO2020246834A1 - 이미지 객체 인식 장치 및 방법 - Google Patents

이미지 객체 인식 장치 및 방법 Download PDF

Info

Publication number
WO2020246834A1
WO2020246834A1 PCT/KR2020/007303 KR2020007303W WO2020246834A1 WO 2020246834 A1 WO2020246834 A1 WO 2020246834A1 KR 2020007303 W KR2020007303 W KR 2020007303W WO 2020246834 A1 WO2020246834 A1 WO 2020246834A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
processing
neural network
object recognition
artificial neural
Prior art date
Application number
PCT/KR2020/007303
Other languages
English (en)
French (fr)
Inventor
김녹원
Original Assignee
주식회사 딥엑스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 딥엑스 filed Critical 주식회사 딥엑스
Priority to US17/256,582 priority Critical patent/US11636670B2/en
Priority to CN202080007580.0A priority patent/CN113330450A/zh
Publication of WO2020246834A1 publication Critical patent/WO2020246834A1/ko
Priority to US18/125,666 priority patent/US20230237792A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/94Hardware or software architectures specially adapted for image or video understanding
    • G06V10/95Hardware or software architectures specially adapted for image or video understanding structured as a network, e.g. client-server architectures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/041Abduction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformation in the plane of the image
    • G06T3/40Scaling the whole image or part thereof
    • G06T3/4015Demosaicing, e.g. colour filter array [CFA], Bayer pattern
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/60
    • G06T5/70
    • G06T5/73
    • G06T5/90
    • G06T5/92
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/74Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/778Active pattern-learning, e.g. online learning of image or video features
    • G06V10/7784Active pattern-learning, e.g. online learning of image or video features based on feedback from supervisors
    • G06V10/7792Active pattern-learning, e.g. online learning of image or video features based on feedback from supervisors the supervisor being an automated module, e.g. "intelligent oracle"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20172Image enhancement details
    • G06T2207/20208High dynamic range [HDR] image processing

Definitions

  • the present disclosure relates to an image object recognition apparatus and method, and more particularly, an image object that recognizes an object in an image by outputting a preprocessed image by image enhancement processing and inputting the preprocessed image to an artificial neural network for object recognition It relates to a recognition device and method.
  • an artificial intelligence-based object recognizer can be applied to devices equipped with cameras, such as autonomous vehicles, surveillance cameras, and drones.
  • devices equipped with the camera and object recognizer provide services such as autonomous driving based on the recognized object. It is possible.
  • autonomous driving the safety of driving can be guaranteed only when the surrounding driving environment is understood and recognized at a high level under any conditions. Accordingly, in order to implement all functions related to intelligent driving and autonomous driving, such as forward collision avoidance, it is necessary to recognize the driving environment.
  • Object recognition technology for autonomous driving not only obtains information by grasping the surrounding environment with sensors such as a camera or radar installed in a vehicle or drone, but also detects various objects existing in a diverse and rapidly changing driving environment with high accuracy. It needs to be recognized in real time.
  • An image object recognition apparatus and method receive an image and image improvement processing of a received image to improve recognition rate of an object in the received image, and image enhancement processing through an artificial neural network for object recognition.
  • An apparatus and method for recognizing an object with higher accuracy can be provided by recognizing an object included in a generated image.
  • An image object recognition apparatus configured to receive an image including an object, and to output a pre-processed image by processing the received image to improve the recognition rate of the object included in the received image.
  • An object recognition module configured to recognize an object included in the image by inputting the module and a pre-processed image as an input layer of an artificial neural network for object recognition, and the pre-processing module includes an object included in the image received from the artificial neural network for object recognition.
  • the image including the received object is input to the input layer of the artificial neural network for preprocessing and is further configured to output the preprocessed image
  • the preprocessing module includes a plurality of reference images as an input layer of the artificial neural network for preprocessing.
  • a learning module that trains the preprocessing artificial neural network to infer a plurality of reference preprocessed images optimized for improvement of the object recognition rate through the artificial neural network for object recognition.
  • each of the plurality of reference images includes an object.
  • the object recognition module is further configured to input a plurality of reference preprocessed images into an input layer of an artificial neural network for object recognition to generate a feedback result for the recognition result of an object included in each of the plurality of reference preprocessed images.
  • the preprocessing module is further configured to learn the artificial neural network for preprocessing by using the feedback result.
  • the object recognition module is further configured to generate a feedback result for the recognition result of the object included in the preprocessed image, and the preprocessing module preprocesses using the feedback result for the recognition result of the object included in the preprocessed image. It is further configured to train an artificial neural network.
  • the artificial neural network for object recognition includes a deep neural network including a plurality of layers, and the object recognition module infers the type and location of the object included in the preprocessed image input through the artificial neural network for object recognition. Is further configured to do.
  • An image object recognition apparatus receives an image including an object, and performs a Denoise operation on a received image, a Deblur operation, and a High Dynamic Range in order to improve a recognition rate of an object included in the received image.
  • a preprocessing module configured to output a preprocessed image through image enhancement processing, and an object recognition module configured to recognize an object included in the image by inputting the preprocessed image to an input layer of an artificial neural network for object recognition.
  • the pre-processing module is further configured to perform image enhancement processing of the received image by adjusting an image parameter representing the received image.
  • the image parameter includes a plurality of image sub-parameters representing the received image
  • the preprocessing module is configured to sequentially process each of the plurality of image sub-parameters.
  • An image object recognition method includes the steps of receiving an image including an object, and processing the received image to improve the recognition rate of the object included in the image received by the pre-processing module.
  • Outputting and recognizing an object included in the image by inputting a preprocessed image into an input layer of an artificial neural network for object recognition by the object recognition module, and outputting the preprocessed image by the preprocessing module comprises: In order to improve the recognition rate of the object included in the received image in the recognition artificial neural network, including the step of outputting a pre-processed image by inputting the image including the received object to the input layer of the artificial neural network for pre-processing, and In the step of outputting the pre-processed image by inputting a plurality of reference images as an input layer of the pre-processing artificial neural network, the pre-processing artificial neural network is trained to infer a reference pre-processed image optimized to improve the object recognition rate through the artificial neural network for object recognition It includes the step of making.
  • each of the plurality of reference images optimized to
  • An image object recognition method includes the steps of receiving an image including an object, a Denoise operation processing, a Deblur operation on the received image to improve the recognition rate of an object included in the image received by the preprocessing module.
  • Processing High Dynamic Range calculation processing, Color Tone Mapping calculation processing, Defog calculation processing, Brightness calculation processing, Contrast calculation processing, Auto White Balance calculation processing, Back Light Compensation calculation processing, Decompression calculation processing And recognizing an object included in the image by outputting the generated image and inputting the image preprocessed by the object recognition module to an input layer of an artificial neural network for object recognition.
  • an image received from an external device is image-improved to improve the recognition rate of an object executed by an artificial neural network for object recognition, and an image improved through the artificial neural network for object recognition.
  • an image received from an external device is image-improved to improve the recognition rate of an object executed by an artificial neural network for object recognition, and an image improved through the artificial neural network for object recognition.
  • 1 is a diagram showing an example of a recognition rate according to a change in light amount and an image result according to the recognition rate.
  • FIG. 2 is a diagram showing an example of a recognition rate according to a change in sharpness and an image result accordingly.
  • FIG. 3 is a block diagram schematically illustrating an internal configuration of an image object recognition apparatus according to an embodiment of the present disclosure.
  • FIG. 4 is a block diagram schematically illustrating an internal configuration of an image object recognition apparatus according to another embodiment of the present disclosure.
  • FIG. 5 is a block diagram illustrating a process of recognizing an object included in an image and providing feedback data according to an exemplary embodiment.
  • FIG. 6 is a block diagram illustrating a process of performing image enhancement processing of an image received by a preprocessing module according to an exemplary embodiment.
  • FIG. 7 is an exemplary diagram illustrating a process of recognizing an object included in an image by an object recognition module according to an embodiment of the present disclosure.
  • FIG. 8 is an exemplary diagram showing a result of recognizing an object included in an image.
  • FIG. 9 is a flowchart illustrating a method of recognizing an image object according to an embodiment of the present disclosure.
  • unit or “module” used in the specification means software or hardware components, and “unit” or “module” performs certain roles. However, “unit” or “module” is not meant to be limited to software or hardware.
  • the “unit” or “module” may be configured to be in an addressable storage medium or may be configured to reproduce one or more processors.
  • sub or “module” refers to components such as software components, object-oriented software components, class components and task components, processes, functions, properties, It includes procedures, subroutines, segments of program code, drivers, firmware, microcode, circuits, data, databases, data structures, tables, arrays and variables. Components and the functions provided in “sub” or “module” may be combined into a smaller number of components and “sub” or “module” or into additional components and “sub” or “module” Can be further separated.
  • a "unit” or a “module” may be implemented with a processor and a memory.
  • the term “processor” is to be interpreted broadly to include general purpose processors, central processing units (CPUs), microprocessors, digital signal processors (DSPs), controllers, microcontrollers, state machines, and the like.
  • a “processor” may refer to an application specific semiconductor (ASIC), programmable logic device (PLD), field programmable gate array (FPGA), and the like.
  • processor refers to a combination of processing devices, such as, for example, a combination of a DSP and a microprocessor, a combination of a plurality of microprocessors, a combination of one or more microprocessors in combination with a DSP core, or any other such configuration. You can also refer to it.
  • server or “client” may include “server device” or “client device”, respectively.
  • memory should be interpreted broadly to include any electronic component capable of storing electronic information.
  • the term memory refers to random access memory (RAM), read-only memory (ROM), non-volatile random access memory (NVRAM), programmable read-only memory (PROM), erase-programmable read-only memory (EPROM), electrical May refer to various types of processor-readable media such as erasable PROM (EEPROM), flash memory, magnetic or optical data storage, registers, and the like.
  • RAM random access memory
  • ROM read-only memory
  • NVRAM non-volatile random access memory
  • PROM programmable read-only memory
  • EPROM erase-programmable read-only memory
  • EEPROM erasable PROM
  • flash memory magnetic or optical data storage, registers, and the like.
  • real time indicates that the electronic switching system or common control system must continue to process information continuously without interruption, and that input cannot be waited or delayed even if the input processing cannot be handled. Can include.
  • real-time may include a method of immediately performing necessary computational processing when data is generated in an information processing method by a computer and returning the result to a place where data is generated or where data is needed.
  • real-time refers to the actual time that the physical process takes place, and means the time it takes to process the data and obtain the necessary results at the same time as the data is generated. It may include a method of processing and notifying the result immediately, and may include a method of processing a computer operation that processes data as soon as it is input.
  • image may include not only a single image captured by an image sensor, but also a plurality of images or videos captured by a single image sensor.
  • image may include a plurality of images or images captured by a plurality of image sensors.
  • the object recognition apparatus may be configured to receive an image including an object and to recognize an object of the received image using an artificial neural network for object recognition.
  • the object recognition apparatus may have different accuracy in recognizing an object included in a plurality of images including the same object and having different image parameters, that is, an object recognition rate.
  • the image parameter may refer to an arbitrary parameter representing a characteristic of an image or a combination thereof.
  • the image parameter may include any sub-parameter representing each of the detailed features of the image.
  • the image parameter may include sub-parameters associated with at least one of demosaicing of the image, wide dynamic range (WDR) or high dynamic range (HDR), deblur, denoise, color tone mapping, white balance, and decompression,
  • WDR wide dynamic range
  • HDR high dynamic range
  • deblur deblur
  • denoise color tone mapping
  • white balance white balance
  • decompression The present invention is not limited thereto, and may include any parameter or sub-parameter that may indicate the characteristics of the image.
  • FIG. 1 is a diagram showing an example of a recognition rate according to a change in light amount and an image result 110 according thereto.
  • the graph 120 shown in FIG. 1 is a graph showing the recognition rate according to the change in the amount of light, and the recognition rate is measured using a deep learning recognition model called GoogleNet while adjusting the amount of light in each image from 50,000 pieces of image data called ImageNet. This is the result of an experiment.
  • the object recognition rate of the received image may vary according to a characteristic representing the image, that is, an image parameter or an amount of light that is one of sub-parameters.
  • a characteristic representing the image that is, an image parameter or an amount of light that is one of sub-parameters.
  • which is the average value of the amount of light of the received image
  • a preferred image among a plurality of images in which the amount of light of an image capturing the same object is changed may be different for each person. In other words, since each person has different eye cells in the retina (eg, cone cells), each person who sees such an image may prefer a different image.
  • a person can select an image with a value of ⁇ of 50 as the most appropriate image for object recognition, but as shown in FIG. 1, when the value of ⁇ is 0, the object recognition device recognizes the object.
  • the object recognition rate in the module was the highest. That is, when the amount of light has an appropriate value, it means that the recognition rate of the deep learning recognition model is highest.
  • the GoogleNet model is used as the object recognition module, but is not limited thereto, and various object recognition modules using an artificial neural network may be used.
  • the object recognition rate may vary according to not only the amount of light, but also the sharpness, which is one of an image parameter or sub-parameter.
  • the sharpness of the image can be changed by changing the value of ⁇ related to the sharpness of the received image. Referring to the image result 210 according to the change in sharpness, it can be seen that the example is clearest when the value of ⁇ is 0 (that is, when it is the original), and the image becomes increasingly blurred as the value of ⁇ increases. .
  • the graph 220 shown in FIG. 2 is a graph showing the recognition rate according to the change in sharpness, and the recognition rate is measured using a deep learning recognition model called GoogleNet while the sharpness is adjusted for each image from 50,000 pieces of image data called ImageNet.
  • GoogleNet a deep learning recognition model
  • the object recognition rate in the object recognition module of the object recognition device is highest. That is, when the value of ⁇ related to sharpness is the smallest, it means that the recognition rate of the deep learning recognition model is highest.
  • the GoogleNet model was used as the object recognition module, but the present invention is not limited thereto, and various object recognition modules using an artificial neural network may be used.
  • the recognition rate of the deep learning recognition model is high when the amount of light of an image has an appropriate value and sharpness is high.
  • the probability of categorizing dogs by breed may be better for computer devices than for humans. That is, before the input image is input to the input layer of the artificial neural network for object recognition, the received image may be image-improved in order to maximize the object recognition rate through the artificial neural network for object recognition. This image enhancement process will be described in detail with reference to FIGS. 3 to 8.
  • the image processing technology aimed at in this patent aims to improve the recognition rate of an artificial neural network-based object recognition device.
  • the image object recognition apparatus 300 may include a communication module 310, a storage unit 320, and a processor 330.
  • the processor 330 may be configured to include a preprocessing module 332 and an object recognition module 334.
  • the communication module 310 of the image object recognition apparatus 300 may communicate with an external device such as a vehicle 370 and a drone 360 through a communication network 350.
  • an external device may provide an image sensor configured to capture or generate an image including an object and an arbitrary service (eg, autonomous driving) based on the recognized object in the image.
  • the communication network 350 is a wireless network such as WLAN (Wireless LAN), Bluetooth and ZigBee, and/or Ethernet, a wired home network, a power line communication network, a telephone line communication network, and an RS depending on the installation environment.
  • -It can be selected and configured in various ways as a wired network such as serial communication.
  • the communication module 310 may be configured to receive an image including an object from at least one of the external devices 360 and 370 through the communication network 350.
  • the image may be an image captured through a photographing unit provided in the external devices 360 and 370 and/or an image stored in the external device, but is not limited thereto.
  • the communication module 310 may provide an image received from the external devices 360 and 370 to the processor 330.
  • the communication module 310 is configured to transmit information on an object in an image recognized or detected by the processor 330 or information obtained by analyzing or processing such information through the communication network 350.
  • the processor 330 may image-enhance the image received through the communication module 310 and recognize an object included in the image using an artificial neural network for object recognition.
  • the processor 330 includes at least one of a central processing unit (CPU), a graphic processing unit (GPU), a digital signal processor (DSP), a Field Programmable Gate Array (FPGA), and an Application Specific Integrated Circuit (ASIC). Including, arbitrary arithmetic operations may be performed, and the received image may be stored in the storage unit 320.
  • the processor 330 stores information on the recognized object from the received image or processed information about the recognized object in the storage unit 320, or to an external device that has transmitted the image through the communication module 310. Can provide.
  • the preprocessing module 332 of the processor 330 may be configured to output a preprocessed image by processing the received image to improve the recognition rate of the object included in the received image.
  • the image improvement processing of the received image is Denoise operation processing, Deblur operation processing, High Dynamic Range operation processing, Color Tone Mapping operation processing, Defog operation processing, Brightness operation processing, Contrast operation processing, Auto White Balance operation processing, At least one of a Back Light Compensation operation processing and a Decompression operation processing may be included.
  • the preprocessing module 332 may be configured to perform image enhancement processing of the received image by adjusting an image parameter representing the received image.
  • the image parameters are Deblur, Denoise, Wide Dynamic Range (WDR) or High Dynamic Range (HDR), color tone mapping, and demosaicing of the received image.
  • WDR Wide Dynamic Range
  • HDR High Dynamic Range
  • demosaicing of the received image May include an image sub-parameter representing at least one of), but is not limited thereto, and may include a sub-parameter related to the aforementioned image enhancement processing.
  • Image enhancement processing may include computational processing of pre-processing the image before inputting the received image to the artificial neural network for object recognition, and the technology for pre-processing the image pre-processes the image using image signal processing technology and machine learning method. It may include at least one of a technique for preprocessing an image using a technique for performing a deep learning and a deep learning learning method.
  • the preprocessing module 332 may perform image signal processing on one or more image parameters indicating characteristics of the received image.
  • each of the plurality of image parameters may be sequentially image signal processed. That is, after one of the plurality of image parameters is pre-processed, it may be configured to perform pre-processing of other image parameters for an image having the processed parameter.
  • the preprocessing module 332 may be configured to use an image preprocessing model for preprocessing one or more image parameters representing characteristics of a received image.
  • the image pre-processing model can be learned using various reference images or images, and when an image including an object is input, the artificial neural network for object recognition outputs the pre-processed image of the image to maximize the object recognition rate of the input image.
  • the image pre-processing model includes an image pre-processing probability model, and machine learning to infer a pre-processed image that can maximize the object recognition rate by inputting training data (e.g., various reference images or images to a pre-processing artificial neural network). It can be learned through algorithms.
  • the image preprocessing model includes a learned artificial neural network (eg, a deep neural network, etc.), and may be learned through AI learning.
  • the preprocessing module 332 performs image enhancement processing of the received image by adjusting image parameters representing characteristics of the received image
  • the present invention is not limited thereto.
  • an arbitrary improvement process may be performed on the received image as needed.
  • the preprocessing module 332 may correct a portion lost due to compression to be close to the original image.
  • the object recognition module 334 of the processor 330 may be configured to recognize an object included in the image by inputting the preprocessed image to an input layer of an artificial neural network for object recognition.
  • the object recognition module 334 may infer the type and location of one or more objects included in the preprocessed image.
  • the artificial neural network for object recognition is learned to recognize an object in the reference image by receiving a reference image, and may include an arbitrary artificial neural network for inferring an object in the image when the image is input.
  • the artificial neural network for object recognition may include a deep neural network (DNN) including a plurality of layers.
  • the artificial neural network for object recognition may be a pre-trained convolutional neural network (CNN), and the type and location of one or more objects included in the received image using the pre-trained convolutional neural network I can infer.
  • the pre-learned convolutional neural network may be composed of one or more layers that perform convolution operations on the input values, and infer the output values by performing convolution operations from the input values.
  • I can.
  • the information on the recognized object can be processed by the processor 330, and the information on the recognized object or the processed information can be transmitted to an external device that has transmitted the image through the communication module 310. have.
  • the object recognition module 334 is further configured to generate feedback data on a recognition result (eg, recognition rate) of an object included in a preprocessed image, recognized by an artificial neural network for object recognition. Can be.
  • the pre-processing module 332 may be further configured to adjust a variable used for image enhancement processing of the received image based on the generated feedback data. A process in which the object recognition module 334 generates feedback data and performs image enhancement processing of an image based on the generated feedback data will be described in detail with reference to FIG. 5.
  • the image object recognition apparatus 400 of FIG. 4 may include the same or similar configuration to the image object recognition apparatus 300 of FIG. 3.
  • the image object recognition apparatus 400 may include an image sensor 410, a storage unit 420, and a processor 430.
  • the processor 430 may include a preprocessing module 432 and an object recognition module 434.
  • the storage unit 420 of the image object recognition apparatus 400 of FIG. 4 may have the same or similar configuration as the storage unit 420 of the image object recognition apparatus 300 of FIG. 3.
  • the preprocessing module 432 of the processor 430 of FIG. 4 may have the same or similar configuration as the preprocessing module 332 of the processor 330 of FIG. 3.
  • the object recognition module 434 of the processor 430 of FIG. 4 may include the same or similar configuration as the object recognition module 334 of the processor 330 of FIG. 3. Redundant contents of the description of the image object recognition apparatus 400 of FIG. 4 and the description of the image object recognition apparatus 300 of FIG. 3 are omitted.
  • the image object recognition apparatus 400 may include an image sensor 410 configured to capture or generate an image including an object. That is, unlike the image object recognition apparatus 300 of FIG. 3, the image object recognition apparatus 400 includes the image sensor 410, so that the image captured from the image sensor 410 is transmitted to the processor 430. , An object in an image may be recognized using the preprocessing module 432 and the object recognition module 434 of the processor 430.
  • the image sensor 410 is configured to be included in the image object recognition device 400, but is not limited thereto, and the image sensor 410 is not included in the image object recognition device 400, but the image sensor 410 )
  • the image object recognition device 400 may be configured to be included in one device.
  • the preprocessing module 532 of FIG. 5 may correspond to the preprocessing module 332 of FIG. 3 and the preprocessing module 432 of FIG. 4.
  • the object recognition module 534 of FIG. 5 may correspond to the object recognition module 334 of FIG. 3 and the object recognition module 434 of FIG. 4.
  • FIG. 5 a detailed description may be omitted for components that are the same or similar to those described in FIG. 3 or 4 to avoid repetition, and only changes or additional parts may be described.
  • the communication module 310 of the image object recognition apparatus 300 may receive an image including an object from an external device by using the communication network 350, and the received image is a preprocessing module of the processor ( 532).
  • the image sensor 410 since the image sensor 410 is mounted in the same device as the image object recognition apparatus 400, an image captured by the image sensor 410 may be transmitted to the preprocessing module 532 of the processor.
  • the preprocessing module 532 may perform image enhancement processing on the input image.
  • the preprocessing module 532 may use arbitrary functions and variables used for signal processing of an image.
  • the preprocessing module 532 may be configured to output a preprocessed image by preprocessing an image input through an image preprocessing model.
  • the image preprocessing model may be an arbitrary probability model for maximizing the recognition rate of an object in an image in an artificial neural network for object recognition.
  • the image preprocessing model may include an image preprocessing network such as CNN (convolutional neural networks), Deblur Network, Denoise Network, and the like.
  • the pre-processing module 532 may be implemented by a pre-processing artificial neural network that has been learned to output a pre-processed image optimized for object recognition as an output value.
  • the learned artificial neural network for preprocessing receives object recognition results for each of a plurality of reference images and a plurality of reference images as input values, and iteratively learns to output a preprocessed image optimized for recognition of an object included in each reference image as an output value. It may be a pre-learned artificial neural network.
  • the reference image may be a pair of training data composed of an image degraded and an original image.
  • the preprocessing module 532 may be configured to further include a learning module (not shown).
  • the learning module of the object recognition apparatus may generate an artificial neural network for preprocessing that infers a preprocessed image optimized for object recognition based on object recognition results for each of the plurality of reference images and the plurality of reference images.
  • the generated preprocessed artificial neural network can be learned through machine learning algorithms to infer preprocessed images optimized for object recognition.
  • the learning module may train an artificial neural network to infer a preprocessed image pattern optimized for recognition of an object, and learn to output a preprocessed image based on this.
  • the pre-processing module may extract the pre-processed image using the artificial neural network for pre-processing generated and learned by the learning module.
  • the preprocessing module 532 receives an image received from an external device or an image captured from an image sensor using the learned artificial neural network as an input value, and can infer a preprocessed image optimized for object recognition, and the inferred preprocessed image Can be provided to the object recognition module 534.
  • the object recognition module 534 can recognize an object included in the image by inputting the preprocessed image as an input layer of the artificial neural network for object recognition, and included in the preprocessed image recognized by the artificial neural network for object recognition. Feedback data on the recognition result of an object can be generated.
  • the artificial neural network for object recognition may be a pre-trained deep neural network (DNN), but is not limited thereto.
  • the object recognition module 534 may be configured to detect or recognize an object in an input image using a reader network (eg, VGG, ResNet, YOLO, SSD, etc.).
  • the feedback data on the recognition result of the object may include whether an object included in the image is recognized. For example, whether or not the object is recognized may be determined based on whether the object recognition rate exceeds a predetermined threshold recognition rate. As another example, whether or not to recognize an object in an image may be determined by calculating a confidence level as well as a probability for object recognition.
  • Feedback data on the recognition result of the object may include not only whether the object is recognized, but also arbitrary processing information on the recognition result of the object. The feedback data thus generated may be provided to the preprocessing module 532.
  • the feedback data for the recognition result of an object is not limited to whether or not the object is recognized, and the object recognition speed based on the response time for object recognition, the accuracy of object recognition (or object recognition rate), and the parameters of the image that recognizes the object. It may include various parameters generated during object recognition or various elements involved in object recognition, such as.
  • the preprocessing module 532 may adjust a variable used for image enhancement processing of the received image based on the generated feedback data.
  • the variable may be a value that changes when an image enhancement processing technique (eg, a signal processing operation) is performed on the received image.
  • these variables may include factors that determine image parameters.
  • the preprocessing module 532 may perform image enhancement processing of the received image by adjusting image parameters.
  • the preprocessing module 532 may perform image enhancement processing by adjusting a blur parameter or sub-parameter of the received image using the following equation, which is a Gaussian filter.
  • represents a variable that determines the degree of blurring
  • the preprocessing module 532 may adjust the value of the variable ⁇ based on the feedback data generated by the object recognition module 534, and image improvement processing the image received by the adjusted variable, thereby reducing the object recognition rate. Pre-processed images that are optimized for can be output.
  • the pre-processing module 532 when the pre-processing module 532 generates an image pre-processing model and processes the input image to improve the image, the image pre-processing model is trained by using the feedback data generated by the object recognition module 534. Preprocessing models can be rebuilt or updated. For example, when the image preprocessing model is made of an artificial neural network, the preprocessing module 532 may analyze feedback data and correct weight values included in the artificial neural network based on the analyzed result.
  • the pre-processing module 532 is included in the pre-processed image, which is an output value output through the pre-learned artificial neural network for object recognition so as to output a pre-processed image that can maximize the object recognition rate of the artificial neural network for object recognition.
  • parameters eg, weights
  • the object recognition module may recognize an object by inputting a preprocessed image optimized for object recognition, which is an output value of the preprocessing artificial neural network, as an input value of the artificial neural network for object recognition.
  • the weight of the preprocessing artificial neural network can be learned by using the object recognition result and feedback data by the artificial neural network for object recognition, and the preprocessed image optimized for object recognition is provided to the artificial neural network for object recognition with the learned artificial neural network for preprocessing. As a result, the recognition rate of the artificial neural network for object recognition can be improved.
  • the artificial neural network for pre-processing and the artificial neural network for object recognition may be pre-trained networks such as a deep learning model, but are not limited thereto. As described above, it is configured to further include a learning module to generate and learn at least one of an artificial neural network for preprocessing and an artificial neural network for object recognition. Artificial neural networks can be trained using various machine learning algorithms such as deep learning algorithms.
  • the preprocessing module 632 of FIG. 6 may correspond to the preprocessing module 332 of FIG. 3 and the preprocessing module 432 of FIG. 4.
  • the preprocessing module 632 is received from an external device or an image sensor.
  • An image captured from the image may be input, and image enhancement processing of the received image may be performed by adjusting an image parameter representing the received image.
  • the image parameters are Deblur, Denoise, Wide Dynamic Range (WDR) or High Dynamic Range (HDR), color tone mapping, and demosaicing of the received image.
  • WDR Wide Dynamic Range
  • HDR High Dynamic Range
  • demosaicing of the received image May include an image sub-parameter indicating at least one of.
  • the preprocessing module 632 may be configured to sequentially perform image enhancement processing on each of a plurality of image subparameters. For example, when signal processing each of a plurality of image sub-parameters, when signal processing of each of a plurality of image sub-parameters, the signal-processed result of the first processed sub-parameter is converted to the signal of the sub-parameter to be processed next. Can be reflected. As shown, the pre-processing module 632 performs image signal processing on the deblur, image signal processing on the denoise of the image on which the signal processing on the deblur is completed, and the signal processing on the de-noise is performed.
  • Perform video signal processing for HDR or WDR of the completed image perform image signal processing for color tone mapping of images that have been signal-processed for HDR or WDR, and demo of images that have signal-processed for color tone mapping It may be configured to perform image signal processing for zaiking.
  • the preprocessing module 632 may perform a preprocessing operation on an input image using a pre-learned artificial neural network to infer a preprocessed image optimized for object recognition included in the image.
  • a pre-learned artificial neural network may input an image received from an external device into an input layer.
  • the artificial neural network is an image sub-parameter representing the input image (e.g., Deblur, Denoise, WDR (Wide Dynamic Range) or HDR (High Dynamic Range), color tone mapping).
  • demosaicing as shown in FIG. 6, Deblur, Denoise, Wide Dynamic Range (WDR) or High Dynamic Range (HDR), and color tone mapping.
  • a preprocessed image optimized for object recognition may be output to the output layer by sequentially adjusting according to the order of demosaicing.
  • the pre-processing module 332 does not sequentially adjust each sub-parameter by one learned artificial neural network, but rather a plurality of learned artificial neural networks (e.g., Deblur ) Deblurrer adjustment artificial neural network learned to output a preprocessed image optimized for object recognition by adjusting parameters, WDR or HDR adjustment artificial neural network learned to output a preprocessed image optimized for object recognition by adjusting WDR or HDR parameters)
  • a plurality of learned artificial neural networks e.g., Deblur
  • Deblurrer adjustment artificial neural network learned to output a preprocessed image optimized for object recognition by adjusting parameters WDR or HDR adjustment artificial neural network learned to output a preprocessed image optimized for object recognition by adjusting WDR or HDR parameters
  • subparameters representing deblurrer, denoise, WDR or HDR, color tone mapping, and demosaicing are exemplarily illustrated as subparameters of an image, but are not limited thereto, and the image subparameter is an arbitrary image representing an image. May include sub-parameters.
  • the order of adjusting the sub-parameters is not limited to the order shown in FIG. 6, and the order of adjustment may be changed so that an optimized preprocessed image is output to improve the image object recognition rate in the artificial neural network for object recognition.
  • the object recognition module may recognize an object included in a received image using Regions with Convolutional Neural Network (R-CNN).
  • R-CNN Regions with Convolutional Neural Network
  • the R-CNN may generate candidate regions from an input image using a selective search algorithm. Each of the generated candidate regions may be converted to the same size, and features of an object included in the image may be extracted through CNN.
  • the object in the candidate region can be classified using the extracted features using a support vector machine.
  • objects included in the image of the recognized object can be classified into various categories such as people, trees, vehicles, and the like.
  • the object recognition module may detect or recognize an object in an image based on the classified object.
  • the object recognition module exemplarily discloses that the R-CNN is used, but the present invention is not limited thereto, and the object recognition module may use any artificial neural network capable of recognizing an object in an image.
  • an artificial neural network for object recognition such as Regions with Convolutional Neural Network (R-CNN) can recognize an object included in new image data using a pretrained network such as AlexNet or GoogleNet.
  • the image object recognition apparatus may be configured to further include a learning module to train an artificial neural network for object recognition through the learning module.
  • the artificial neural network for object recognition analyzes thousands to tens of thousands of pieces of training data (learning images) to learn features for classifying each object, and learns how to identify differences between each object.
  • FIG. 8 is an exemplary diagram showing a result of recognizing an object included in an image.
  • the object recognition rate is 61%
  • the object of the normally captured (Ground truth) image 820 is a deep neural network.
  • the object recognition rate is 74%.
  • the preprocessing module of the image object recognition apparatus of the present disclosure may perform image improvement processing by processing the received image, and the object recognition module uses a deep neural network to process the shaken image 810. Objects included in deblurred images can be recognized. As a result of recognizing the object of the image that has been image-improved through the pre-processing module, the shaken image 810 was restored, as in the restored image 830 shown in FIG. 8, and the image was captured with the object recognition rate shaking at 82%. It can be seen that the recognition rate of the object is higher than that of (810).
  • the pre-processing module pre-processes the input image before inputting the image to the artificial neural network for object recognition, thereby recognizing the object in the image through the artificial neural network for object recognition. You can improve the probability.
  • the image object recognition method 900 may include an operation 910 of receiving an image including an object by a communication module.
  • Such an image may include at least one of an image received from an external device through a communication module in the image object recognition device and an image captured by an image sensor in the image object device.
  • the preprocessing module may image the received image before recognizing the object and output the preprocessed image (920 ).
  • the preprocessing module may perform image enhancement processing of the received image by adjusting image parameters.
  • the preprocessed image may be provided to an object recognition module.
  • the object recognition module may recognize an object included in the image by inputting the preprocessed image as an input layer of an artificial neural network for object recognition (S930).
  • the artificial neural network for object recognition may be a pre-learned convolutional neural network (CNN), but is not limited thereto.
  • CNN convolutional neural network
  • the object recognition module may infer the types and locations of one or more objects included in the received image using a pre-learned convolutional neural network.
  • the above-described image object recognition apparatus may be implemented as a computer-readable code on a computer-readable recording medium.
  • the computer-readable recording medium includes all types of recording devices that store data that can be read by a computer system. Examples of computer-readable recording media include ROM, RAM, CD-ROM, magnetic tape, floppy disk, and optical data storage devices.
  • the computer-readable recording medium is distributed over a computer system connected through a network, so that computer-readable codes can be stored and executed in a distributed manner.
  • functional programs, codes, and code segments for implementing the above embodiments can be easily inferred by programmers in the technical field to which the present invention belongs.
  • the processing units used to perform the techniques include one or more ASICs, DSPs, digital signal processing devices (DSPDs), programmable logic devices (PLDs). ), field programmable gate arrays (FPGAs), processors, controllers, microcontrollers, microprocessors, electronic devices, other electronic units designed to perform the functions described herein, It may be implemented in a computer, or a combination thereof.
  • various illustrative logic blocks, modules, and circuits described in connection with the disclosure herein may be a general purpose processor, DSP, ASIC, FPGA or other programmable logic device, discrete gate or transistor logic, discrete hardware components, or It may be implemented or performed in any combination of those designed to perform the functions described herein.
  • a general purpose processor may be a microprocessor, but in the alternative, the processor may be any conventional processor, controller, microcontroller, or state machine.
  • the processor may also be implemented as a combination of computing devices, eg, a combination of a DSP and a microprocessor, a plurality of microprocessors, one or more microprocessors in connection with the DSP core, or any other such configuration.
  • the techniques include random access memory (RAM), read-only memory (ROM), non-volatile random access memory (NVRAM), PROM (on a computer-readable medium such as programmable read-only memory), erasable programmable read-only memory (EPROM), electrically erasable PROM (EEPROM), flash memory, compact disc (CD), magnetic or optical data storage device, etc. It can also be implemented as stored instructions.
  • the instructions may be executable by one or more processors, and may cause the processor(s) to perform certain aspects of the functionality described herein.
  • Computer-readable media includes both computer storage media and communication media, including any medium that facilitates transfer of a computer program from one place to another.
  • Storage media may be any available media that can be accessed by a computer.
  • such computer-readable medium may contain RAM, ROM, EEPROM, CD-ROM or other optical disk storage, magnetic disk storage or other magnetic storage devices, or the desired program code in the form of instructions or data structures. It may include any other medium that may be used for transfer or storage to and accessible by a computer. Also, any connection is properly termed a computer-readable medium.
  • disks and disks include CDs, laser disks, optical disks, digital versatile discs (DVDs), floppy disks, and Blu-ray disks, where disks are usually magnetic It reproduces data optically, while discs reproduce data optically using a laser. Combinations of the above should also be included within the scope of computer-readable media.
  • the software module may reside in RAM memory, flash memory, ROM memory, EPROM memory, EEPROM memory, registers, hard disk, removable disk, CD-ROM, or any other type of storage medium known in the art.
  • An exemplary storage medium may be coupled to the processor such that the processor can read information from or write information to the storage medium.
  • the storage medium may be integrated into the processor.
  • the processor and storage medium may also reside within the ASIC.
  • the ASIC may exist in the user terminal.
  • the processor and storage medium may exist as separate components in the user terminal.
  • exemplary implementations may refer to utilizing aspects of the currently disclosed subject matter in the context of one or more standalone computer systems, the subject matter is not so limited, but rather is associated with any computing environment, such as a network or distributed computing environment. It can also be implemented. Furthermore, aspects of the presently disclosed subject matter may be implemented in or across multiple processing chips or devices, and storage may be similarly affected across multiple devices. Such devices may include PCs, network servers, and handheld devices.
  • the computer-readable recording medium includes all types of recording devices that store data that can be read by a computer system. Examples of computer-readable recording media include ROM, RAM, CD-ROM, magnetic tapes, floppy disks, and optical data storage devices.
  • the computer-readable recording medium is distributed over a computer system connected through a network, so that computer-readable codes can be stored and executed in a distributed manner. Further, functional programs, codes, and code segments for implementing the embodiments can be easily inferred by programmers in the technical field to which the present invention belongs.

Abstract

본 개시의 일 실시예에 따른 이미지 객체 인식 장치는, 객체를 포함한 이미지를 수신하고, 수신된 이미지 내에 포함된 객체의 인식률을 향상하기 위해 수신된 이미지를 영상 개선 처리하여 전처리된 이미지를 출력하도록 구성된 전처리 모듈 및 전처리된 이미지를 객체 인식용 인공신경망의 입력층으로 입력하여 이미지 내에 포함된 객체를 인식하도록 구성된 객체 인식 모듈을 포함할 수 있다.

Description

이미지 객체 인식 장치 및 방법
본 개시는 이미지 객체 인식 장치 및 방법에 관한 것으로, 보다 상세하게는, 이미지를 영상 개선 처리하여 전처리된 이미지를 출력하고 전처리된 이미지를 객체 인식용 인공신경망에 입력하여 이미지 내의 객체를 인식하는 이미지 객체 인식 장치 및 방법에 관한 것이다.
최근, 인공지능 및 빅데이터를 이용한 기술을 카메라가 장착된 장치에 접목시켜서 카메라로부터 촬영된 이미지 내의 객체를 탐지하거나 인식하는 연구가 진행되고 있다. 예를 들어, 인공지능 기반의 객체 인식기는 자율 주행 자동차, 감시카메라, 드론 등의 카메라를 구비한 장치들에 적용될 수 있다. 이러한 인공지능 기반 객체 인식기가 카메라에 의해 촬영된 이미지 내의 객체를 미리 결정된 수준 이상의 인식율로 인식하였을 때, 이러한 카메라 및 객체 인식기를 구비한 장치들이 인식된 객체를 기초로 자율주행 등과 같은 서비스를 제공하는 것이 가능하다.
자율주행은 어떠한 조건에서도 주변의 주행 환경을 높은 수준으로 이해하고 인식해야 운행의 안전이 보장될 수 있다. 이에 따라, 전방 충돌 방지 등과 같은 지능형 주행 및 자율주행과 관련된 모든 기능을 구현하기 위해서는 주행 환경이 인식되는 것이 선행되어야 한다. 자율주행을 위한 객체 인식 기술은 차량이나 드론에 구비된 카메라나 레이더(Radar)와 같은 센서로 주변 환경을 파악하여 정보를 얻을 뿐만 아니라 다양하고 신속하게 변하는 주행 환경 내에 존재하는 다양한 사물을 높은 정확도로 실시간으로 인식해야 할 필요가 있다.
근래에 들어, 기계 학습을 통한 딥러닝 프로세서를 활용한 객체 인식 기술이 개발되고 있다. 종래의 자율 주행 자동차는 발열로 인한 안정성 저하로, 감시카메라와 드론의 경우, 높은 소모 전력량으로 인해 고성능 범용의 딥러닝 프로세서를 적용하기에 어려움이 있었다. 따라서, 인공지능을 이용한 자율 주행에 요구되는 성능을 만족하면서 전력 소모와 발열을 최소화할 수 있는 기술이 필요하다.
본 개시의 일 실시예에 따른 이미지 객체 인식 장치 및 방법은, 이미지를 수신하고 수신된 이미지 내의 객체의 인식률을 향상시키기 위하여 수신된 이미지를 영상 개선 처리하고, 객체 인식용 인공신경망을 통해 영상 개선 처리된 이미지 내에 포함된 객체를 인식함으로써, 보다 높은 정확도로 객체를 인식하는 장치 및 방법을 제공할 수 있다.
본 개시의 일 실시예에 따른 이미지 객체 인식 장치는, 객체를 포함한 이미지를 수신하고, 수신된 이미지 내에 포함된 객체의 인식률을 향상하기 위해 수신된 이미지를 영상 개선 처리하여 전처리 이미지를 출력하도록 구성된 전처리 모듈 및 전처리 이미지를 객체 인식용 인공신경망의 입력층으로 입력하여 이미지 내에 포함된 객체를 인식하도록 구성된 객체 인식 모듈을 포함하고, 전처리 모듈은, 객체 인식용 인공신경망에서의 수신된 이미지 내에 포함된 객체의 인식률을 향상하기 위해, 수신된 객체를 포함한 이미지를 전처리용 인공신경망의 입력층으로 입력하여 상기 전처리 이미지를 출력하도록 더 구성되고, 전처리 모듈은, 복수의 참조 이미지를 전처리용 인공신경망의 입력층으로 입력하여 객체 인식용 인공신경망을 통한 객체 인식률의 향상에 최적화된 복수의 참조 전처리 이미지가 추론되도록 전처리용 인공신경망을 학습시키는 학습 모듈을 포함한다. 여기서, 복수의 참조 이미지의 각각은 객체를 포함한다.
일 실시예에 따르면, 객체 인식 모듈은, 복수의 참조 전처리 이미지를 객체 인식용 인공신경망의 입력층으로 입력하여 복수의 참조 전처리 이미지의 각각에 포함된 객체의 인식 결과에 대한 피드백 결과를 생성하도록 더 구성되고, 전처리 모듈은 피드백 결과를 이용하여 전처리용 인공신경망을 학습시키도록 더 구성된다.
일 실시예에 따르면, 객체 인식 모듈은 전처리 이미지 내에 포함된 객체의 인식 결과에 대한 피드백 결과를 생성하도록 더 구성되고, 전처리 모듈은 전처리 이미지 내에 포함된 객체의 인식 결과에 대한 피드백 결과를 이용하여 전처리용 인공신경망을 학습시키도록 더 구성된다.
일 실시예에 따르면, 객체 인식용 인공신경망은 복수의 레이어를 포함한 딥 뉴럴 네트워크를 포함하며, 객체 인식 모듈은, 객체 인식용 인공신경망을 통해 입력된 전처리 이미지에 포함된 객체의 종류 및 위치를 추론하도록 더 구성된다.
본 개시의 일 실시예에 따른 이미지 객체 인식 장치는, 객체를 포함한 이미지를 수신하고, 수신된 이미지 내에 포함된 객체의 인식률을 향상하기 위해 수신된 이미지를 Denoise 연산 처리, Deblur 연산 처리, High Dynamic Range 연산 처리, Color Tone Mapping 연산 처리, Defog 연산 처리, Brightness 연산 처리, Contrast 연산 처리, Auto White Balance 연산 처리, Back Light Compensation 연산 처리 또는 Decompression 연산 처리 중 적어도 하나의 영상 개선 처리하여 전처리된 이미지를 출력하도록 구성된 전처리 모듈 및 전처리된 이미지를 객체 인식용 인공신경망의 입력층으로 입력하여 이미지 내에 포함된 객체를 인식하도록 구성된 객체 인식 모듈을 포함한다.
일 실시예에 따르면, 전처리 모듈은, 수신된 이미지를 나타내는 이미지 파라미터를 조정하여 수신된 이미지의 영상 개선 처리를 수행하도록 더 구성된다.
일 실시예에 따르면, 이미지 파라미터가 상기 수신된 이미지를 나타내는 복수의 이미지 서브 파라미터를 포함하고, 전처리 모듈은, 복수의 이미지 서브 파라미터의 각각을 순차적으로 영상 개선 처리하도록 구성된다.
본 개시의 일 실시예에 따른 이미지 객체 인식 방법은, 객체를 포함한 이미지를 수신하는 단계, 전처리 모듈에 의해 수신된 이미지 내에 포함된 객체의 인식률을 향상하기 위해 수신된 이미지를 영상 개선 처리하여 전처리 이미지를 출력하는 단계 및 객체 인식 모듈에 의해 전처리 이미지를 객체 인식용 인공신경망의 입력층으로 입력하여 이미지 내에 포함된 객체를 인식하는 단계를 포함하고, 전처리 모듈에 의해 전처리 이미지를 출력하는 단계는, 객체 인식용 인공신경망에서의 수신된 이미지 내에 포함된 객체의 인식률을 향상하기 위해, 수신된 객체를 포함한 이미지를 전처리용 인공신경망의 입력층으로 입력하여 전처리 이미지를 출력하는 단계를 포함하고, 전처리 모듈에 의해 전처리 이미지를 출력하는 단계는, 복수의 참조 이미지를 전처리용 인공신경망의 입력층으로 입력하여 객체 인식용 인공신경망을 통한 객체 인식률의 향상에 최적화된 참조 전처리 이미지가 추론되도록 전처리용 인공신경망을 학습시키는 단계를 포함한다. 여기서, 복수의 참조 이미지의 각각은 객체를 포함한다.
본 개시의 일 실시예에 따른 이미지 객체 인식 방법은, 객체를 포함한 이미지를 수신하는 단계, 전처리 모듈에 의해 수신된 이미지 내에 포함된 객체의 인식률을 향상하기 위해 수신된 이미지를 Denoise 연산 처리, Deblur 연산 처리, High Dynamic Range 연산 처리, Color Tone Mapping 연산 처리, Defog 연산 처리, Brightness 연산 처리, Contrast 연산 처리, Auto White Balance 연산 처리, Back Light Compensation 연산 처리, Decompression 연산 처리 중 적어도 하나의 영상 개선 처리하여 전처리된 이미지를 출력하는 단계 및 객체 인식 모듈에 의해 전처리된 이미지를 객체 인식용 인공신경망의 입력층으로 입력하여 이미지 내에 포함된 객체를 인식하는 단계를 포함한다.
본 개시의 다양한 실시예들에 따르면, 외부기기로부터 수신된 이미지를 객체 인식용 인공신경망에 의해 실행되는 객체의 인식률을 향상시키도록 영상 개선 처리하고, 객체 인식용 인공신경망을 통해 영상 개선 처리된 이미지내에 포함된 객체를 인식함으로써, 높은 정확도로 객체를 인식할 수 있다.
본 개시의 효과는 이상에서 언급한 효과로 제한되지 않으며, 언급되지 않은 다른 효과들은 청구범위의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
본 개시의 실시예들은, 이하 설명하는 첨부 도면들을 참조하여 설명될 것이며, 여기서 유사한 참조 번호는 유사한 요소들을 나타내지만, 이에 한정되지는 않는다.
도 1은 광량의 변화에 따른 인식률 및 이에 따른 영상결과의 예시를 나타낸 도면이다.
도 2는 선명도의 변화에 따른 인식률 및 이에 따른 영상결과의 예시를 나타낸 도면이다.
도 3은 본 개시의 일 실시예에 따른 이미지 객체 인식 장치의 내부 구성을 간략히 나타내는 블록도이다.
도 4는 본 개시의 다른 실시예에 따른 이미지 객체 인식 장치의 내부 구성을 간략히 나타내는 블록도이다.
도 5는 일 실시예에 따른 이미지에 포함된 객체를 인식하고 피드백 데이터를 제공하는 과정을 나타낸 블록도이다.
도 6은 일 실시예에 따른 전처리 모듈에 의해 수신된 이미지의 영상 개선 처리를 수행하는 과정을 나타낸 블록도이다.
도 7은 본 개시의 일 실시예에 따른 객체 인식 모듈에 의해 이미지에 포함된 객체를 인식하는 과정을 나타낸 예시도이다.
도 8은 이미지에 포함된 객체를 인식한 결과를 나타낸 예시도이다.
도 9은 본 개시의 일 실시예에 따른 이미지 객체 인식 방법을 나타낸 순서도이다.
이하, 본 개시의 실시를 위한 구체적인 내용을 첨부된 도면을 참조하여 상세히 설명한다. 다만, 이하의 설명에서는 본 개시의 요지를 불필요하게 흐릴 우려가 있는 경우, 널리 알려진 기능이나 구성에 관한 구체적 설명은 생략하기로 한다.
첨부된 도면에서, 동일하거나 대응하는 구성요소에는 동일한 참조부호가 부여되어 있다. 또한, 이하의 실시예들의 설명에 있어서, 동일하거나 대응되는 구성요소를 중복하여 기술하는 것이 생략될 수 있다. 그러나 구성요소에 관한 기술이 생략되어도, 그러한 구성요소가 어떤 실시예에 포함되지 않는 것으로 의도되지는 않는다.
개시된 실시예의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 개시는 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 개시가 완전하도록 하고, 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것일 뿐이다.
본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 개시된 실시예에 대해 구체적으로 설명하기로 한다.
본 명세서에서 사용되는 용어는 본 개시에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 관련 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 개시에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 개시의 전반에 걸친 내용을 토대로 정의되어야 한다.
본 명세서에서의 단수의 표현은 문맥상 명백하게 단수인 것으로 특정하지 않는 한, 복수의 표현을 포함한다. 또한 복수의 표현은 문맥상 명백하게 복수인 것으로 특정하지 않는 한, 단수의 표현을 포함한다.
명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다.
또한, 명세서에서 사용되는 "부" 또는 "모듈"이라는 용어는 소프트웨어 또는 하드웨어 구성요소를 의미하며, "부" 또는 "모듈"은 어떤 역할들을 수행한다. 그렇지만 "부" 또는 "모듈"은 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. "부" 또는 "모듈"은 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 "부" 또는 "모듈"은 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다. 구성요소들과 "부" 또는 "모듈"들은 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 "부" 또는 "모듈"들로 결합되거나 추가적인 구성요소들과 "부" 또는 "모듈"들로 더 분리될 수 있다.
본 개시의 일 실시예에 따르면 "부" 또는 "모듈"은 프로세서 및 메모리로 구현될 수 있다. 용어 "프로세서"는 범용 프로세서, 중앙 처리 장치 (CPU), 마이크로프로세서, 디지털 신호 프로세서 (DSP), 제어기, 마이크로제어기, 상태 머신 등을 포함하도록 넓게 해석되어야 한다. 몇몇 환경에서는, "프로세서"는 주문형 반도체 (ASIC), 프로그램가능 로직 디바이스 (PLD), 필드 프로그램가능 게이트 어레이 (FPGA) 등을 지칭할 수도 있다. 용어 "프로세서"는, 예를 들어, DSP 와 마이크로프로세서의 조합, 복수의 마이크로프로세서들의 조합, DSP 코어와 결합한 하나 이상의 마이크로프로세서들의 조합, 또는 임의의 다른 그러한 구성들의 조합과 같은 처리 디바이스들의 조합을 지칭할 수도 있다.
또한, 본 명세서에서, 용어 "서버" 또는 "클라이언트"는 "서버 장치" 또는 "클라이언트 장치"를 각각 포함할 수 있다.
또한, 용어 "메모리"는 전자 정보를 저장 가능한 임의의 전자 컴포넌트를 포함하도록 넓게 해석되어야 한다. 용어 메모리는 임의 액세스 메모리 (RAM), 판독-전용 메모리 (ROM), 비-휘발성 임의 액세스 메모리 (NVRAM), 프로그램가능 판독-전용 메모리 (PROM), 소거-프로그램가능 판독 전용 메모리 (EPROM), 전기적으로 소거가능 PROM (EEPROM), 플래쉬 메모리, 자기 또는 광학 데이터 저장장치, 레지스터들 등과 같은 프로세서-판독가능 매체의 다양한 유형들을 지칭할 수도 있다. 프로세서가 메모리로부터 정보를 판독하고/하거나 메모리에 정보를 기록할 수 있다면 메모리는 프로세서와 전자 통신 상태에 있다고 불린다. 프로세서에 집적된 메모리는 프로세서와 전자 통신 상태에 있다.
또한, 용어 "실시간(real time)"은 전자 교환 시스템이나 공통 제어시스템에서 계속하여 입력되는 정보를 중단시킴 없이 계속하여 처리해야 하며 입력처리를 감당하지 못할 경우에도 입력이 대기 또는 지연될 수 없다는 것을 포함할 수 있다. 또한, "실시간"은 컴퓨터에 의한 정보 처리 방식으로 데이터가 발생한 시점에서 필요한 계산 처리를 즉시 수행하여 그 결과를 데이터가 발생한 곳 또는 데이터가 필요한 곳에 되돌려 보내는 방식을 포함할 수 있다. 또한, "실시간"은, 물리적인 과정이 진행되는 실제의 시간으로 자료 발생과 동시에 그 자료를 처리하고 필요한 결과를 얻어내기까지 소요되는 시간을 의미하며 컴퓨터를 이용하는 형태의 하나로 사용자가 요구하는 자료를 처리하여 결과를 즉시 알려주는 방식을 포함할 수 있고, 데이터가 입력되는 즉시 처리하는 컴퓨터작업 처리 방식을 포함할 수 있다.
또한, 용어 "이미지(image)"는 이미지 센서에 의해 촬상된 단일의 이미지뿐만 아니라, 하나의 이미지 센서에 의해 촬상된 복수의 이미지 또는 영상(video)을 포함할 수 있다. 이에 더하여, 이미지는 복수의 이미지 센서에 의해 촬상된 복수의 이미지 또는 영상을 포함할 수 있다.
본 개시의 다양한 일 실시예에 따르면, 객체 인식 장치는 객체를 포함한 이미지를 수신하고, 객체 인식용 인공신경망을 이용하여 수신된 이미지의 객체를 인식하도록 구성될 수 있다. 객체 인식 장치에서 동일한 객체를 포함하고 이미지 파라미터가 상이한 복수의 이미지에 포함된 객체를 인식하는 정확도, 즉 객체 인식률은 상이할 수 있다. 여기서, 이미지 파라미터는 이미지의 특징을 나타내는 임의의 파라미터 또는 그 조합을 지칭할 수 있다. 또는, 이미지 파라미터는 이미지의 세부 특징의 각각을 나타내는 임의의 서브 파라미터를 포함할 수 있다. 예를 들어, 이미지 파라미터는 이미지의 Demosaicing, WDR(Wide Dynamic Range) 또는 HDR(High Dynamic Range), Deblur, Denoise, Color Tone mapping, White Balance, Decompression 중 적어도 하나와 연관된 서브 파라미터를 포함할 수 있으며, 이에 한정되지 않으며, 이미지의 특징을 나타낼 수 있는 임의의 파라미터 또는 서브 파라미터를 포함할 수 있다.
도 1은 광량의 변화에 따른 인식률 및 이에 따른 영상결과(110)의 예시를 나타낸 도면이다. 도 1에 도시된 그래프(120)는 광량의 변화에 따른 인식률을 나타낸 그래프로, ImageNet이라는 5만장의 영상 데이터에서 각 이미지에 광량을 조절한 상태에서 GoogleNet이라는 딥러닝 인식 모델을 사용하여 인식률을 측정한 실험 결과이다.
일 실시예에 따르면, 수신된 이미지의 객체 인식률은 이미지를 나타내는 특징, 즉 이미지 파라미터 또는 서브 파라미터 중 하나인 광량에 따라 달라질 수 있다. 광량의 변화에 따른 영상결과(110)를 참조하면, 수신된 이미지가 갖고 있는 광량의 평균값인 Δμ의 값을 변화시켜 영상의 광량을 변화시킬 수 있으며, Δμ의 값이 클수록 광량이 밝아지는 것이 확인된다. 동일한 객체를 촬상한 이미지의 광량을 변화시킨 복수의 이미지 중 선호하는 이미지는 사람마다 상이할 수 있다. 즉, 사람마다 가지고 있는 망막 내 시세포(예를 들어, 원뿔세포(cone cell) 등)가 각각 상이하기 때문에, 그러한 이미지를 본 사람들의 각각은 다른 이미지를 선호할 수 있다.
이에 반하여, 객체 인식 장치를 가진 컴퓨팅 장치의 경우 객체 인식용 인공신경망을 이용하여 객체가 인식되기 때문에 영상이 선택됨에 있어서, 이와 같은 선호도가 전혀 기여되지 않는다. 예를 들어, 선호도에 따라, 사람은 Δμ의 값이 50인 영상을 객체 인식을 위한 가장 적절한 영상으로 선택할 수 있으나, 도 1에서 보이는 바와 같이, Δμ의 값이 0일 때 객체 인식 장치의 객체 인식 모듈에서의 객체 인식률이 가장 높았다. 즉, 광량이 적절한 값을 가질 때, 딥러닝 인식 모델의 인식률이 가장 높다는 것을 의미한다. 본 실시예에서는, 객체 인식 모듈로서 GoogleNet 모델이 이용되었으나, 이에 한정되지 않으며, 인공신경망을 이용한 다양한 객체 인식 모듈이 이용될 수 있다.
도 2는 선명도의 변화에 따른 인식률 및 이에 따른 영상결과(210)의 예시를 나타낸 도면이다. 도 1에서 설명한 바와 같이, 객체 인식률은 광량뿐만 아니라, 이미지 파라미터 또는 서브 파라미터 중 하나인 선명도에 따라 달라질 수 있다. 수신된 이미지가 갖고 있는 선명도와 관련된 σ의 값을 변화시켜 영상의 선명도를 변화시킬 수 있다. 선명도의 변화에 따른 영상결과(210)를 참조하면, σ의 값이 0일 때(즉, 원본(Original)일 때) 예시가 가장 선명하며, σ의 값이 클수록 영상이 점점 흐려지는 것을 확인할 수 있다.
도 2에 도시된 그래프(220)는 선명도의 변화에 따른 인식률을 나타낸 그래프로, ImageNet이라는 5만장의 영상 데이터에서 각 이미지에 선명도를 조절한 상태에서 GoogleNet이라는 딥러닝 인식 모델을 사용하여 인식률을 측정한 실험 결과이다. 도 2에 도시된 그래프(220)를 참조하면, σ의 값이 0일 때(즉, 원본(Original)일 때), 객체 인식 장치의 객체 인식 모듈에서의 객체 인식률이 가장 높게 나타난다. 즉, 선명도와 관련된 σ의 값이 가장 작을 때 딥러닝 인식 모델의 인식률이 가장 높은 것을 의미한다. 이상에서 설명한 바와 같이, 객체 인식 모듈로서 GoogleNet 모델이 이용되었으나, 이에 한정되지 않으며, 인공신경망을 이용한 다양한 객체 인식 모듈이 이용될 수 있다.
도 1 및 도 2를 참조하면, 컴퓨터 장치를 이용한 객체 인식 기술은 영상의 광량이 적절한 값을 가지고, 선명도가 높을 때 딥러닝 인식 모델의 인식률이 높다는 것을 알 수 있다.
이상에서 설명한 바와 같이, 사람이 선호하는 고화질의 영상과 인공신경망 기반 객체 인식 장치의 인식률을 극대화시킬 수 있는 영상은 차이가 있을 수 있다. 예를 들어, 개를 견종별로 분류하는 확률은 사람보다 컴퓨터 장치가 더 뛰어날 수 있다. 즉, 입력되는 이미지를 객체 인식용 인공신경망의 입력층에 입력하기 이전에 객체 인식용 인공신경망을 통한 객체 인식률을 극대화하기 위해 수신된 이미지를 영상 개선 처리될 수 있다. 이러한 영상 개선 처리에 대해 도 3 내지 8을 참조하여 상세히 설명된다.
기존의 영상 전처리 기술은 사람이 선호하는 고화질 영상을 출력하기 위해 구현된 반면, 본 특허에서 목표하는 영상 처리 기술은 인공신경망 기반 객체 인식 장치의 인식률을 향상시키는 것을 목표로 한다.
도 3은 본 개시의 일 실시예에 따른 이미지 객체 인식 장치(300)의 내부 구성을 간략히 나타내는 블록도이다. 도 3에 도시된 바와 같이, 이미지 객체 인식 장치(300)는, 통신 모듈(310), 저장부(320) 및 프로세서(330)를 포함할 수 있다. 여기서, 프로세서(330)는 전처리 모듈(332) 및 객체 인식 모듈(334)을 포함하도록 구성될 수 있다.
도시된 바와 같이, 이미지 객체 인식 장치(300)의 통신 모듈(310)은 통신 네트워크(350)를 통해 자동차(370), 드론(360) 등과 같은 외부 장치와 통신할 수 있다. 예를 들어, 이러한 외부 장치는 객체를 포함한 이미지를 촬상하거나 생성하도록 구성된 이미지 센서 및 이러한 이미지 내 인식된 객체를 기초로 임의의 서비스(예시: 자율주행)를 제공할 수 있다. 통신 네트워크(350)는 WLAN(Wireless LAN), Bluetooth 및 지그비(ZigBee) 등과 같은 무선 네트워크 및/또는 설치환경에 따라 이더넷(Ethernet), 유선 홈 네트워크, 전력선 통신망(Power Line Communication), 전화선 통신망 및 RS-serial 통신 등의 유선 네트워크 로 다양하게 선택되어 구성될 수 있다.
통신 모듈(310)은, 통신 네트워크(350)를 통해 외부 장치(360, 370) 중 적어도 하나로부터 객체를 포함한 이미지를 수신하도록 구성될 수 있다. 여기서, 이미지는 외부 장치(360, 370)에 구비된 촬영부를 통해 촬영된 이미지 및/또는 외부 장치에 저장된 이미지일 수 있으나, 이에 한정되지 않는다. 통신 모듈(310)은 외부 장치(360, 370)로부터 수신된 이미지를 프로세서(330)로 제공할 수 있다. 또한, 통신 모듈(310)은 프로세서(330)에 의해 인식되거나 탐지된 이미지 내의 객체에 대한 정보 또는 그러한 정보를 분석 또는 가공한 정보를 통신 네트워크(350)를 통해 송신하도록 구성된다.
프로세서(330)는 통신 모듈(310)을 통해 수신된 이미지를 영상 개선 처리하고, 객체 인식용 인공신경망을 이용하여 이미지 내에 포함된 객체를 인식할 수 있다. 일 실시예에서, 프로세서(330)는 CPU(central processing unit), GPU(graphic processing unit), DSP(digital signal processor), FPGA (Field Programmable Gate Array), ASIC (Application Specific Integrated Circuit) 중 적어도 하나를 포함하여 임의의 연산 동작을 수행할 수 있고, 수신되는 이미지를 저장부(320)에 저장할 수도 있다. 또한, 프로세서(330)는 수신된 이미지로부터 인식된 객체에 대한 정보 또는 이러한 인식된 객체를 가공한 정보를 저장부(320)에 저장하거나, 통신 모듈(310)을 통해 이미지를 송신한 외부 장치에 제공할 수 있다.
프로세서(330)의 전처리 모듈(332)은 수신된 이미지 내에 포함된 객체의 인식률을 향상하기 위해 수신된 이미지를 영상 개선 처리하여 전처리된 이미지를 출력하도록 구성될 수 있다. 예를 들어, 수신된 이미지의 영상 개선 처리는 Denoise 연산 처리, Deblur 연산 처리, High Dynamic Range 연산 처리, Color Tone Mapping 연산 처리, Defog 연산 처리, Brightness 연산 처리, Contrast 연산 처리, Auto White Balance 연산 처리, Back Light Compensation 연산 처리, Decompression 연산 처리 중 적어도 하나의 연산 처리를 포함할 수 있다.
일 실시예에서, 전처리 모듈(332)은 수신된 이미지를 나타내는 이미지 파라미터를 조정하여 수신된 이미지의 영상 개선 처리를 수행하도록 구성될 수 있다. 여기서, 이미지 파라미터는, 수신된 이미지의 디블러(Deblur), 디노이즈(Denoise), WDR(Wide Dynamic Range) 또는 HDR(High Dynamic Range), 색상 톤 매핑(color tone mapping) 및 디모자이킹(Demosaicing) 중 적어도 하나를 나타내는 이미지 서브 파라미터를 포함할 수 있으나, 이에 한정되지 않으며, 앞서 언급된 영상 개선 처리에 연관된 서브 파라미터를 포함할 수 있다.
영상 개선 처리는 객체인식용 인공신경망에 수신된 이미지를 입력하기 이전에 이미지를 전처리하는 연산 처리를 포함할 수 있으며, 영상을 전처리하는 기술은 영상 신호 처리 기술, 기계학습 방법을 이용하여 영상을 전처리하는 기술 및 딥러닝 학습 방법을 이용하여 영상을 전처리하는 기술 중 적어도 하나를 포함할 수 있다.
일 실시예에 따르면, 전처리 모듈(332)은 수신된 이미지의 특징을 나타내는 하나 이상의 이미지 파라미터에 대한 영상 신호 처리를 수행할 수 있다. 예를 들어, 복수의 이미지 파라미터의 각각은 순차적으로 영상 신호 처리될 수 있다. 즉, 복수의 이미지 파라미터 중 하나의 파라미터가 전처리된 이후 처리된 파라미터를 가진 영상에 대해 다른 이미지 파라미터의 전처리가 진행되도록 구성될 수 있다.
다른 실시예에 따르면, 전처리 모듈(332)은 수신된 이미지의 특징을 나타내는 하나 이상의 이미지 파라미터를 전처리하기 위한 영상 전처리 모델을 이용하도록 구성될 수 있다. 여기서, 영상 전처리 모델은 다양한 참조 이미지 또는 영상을 이용하여 학습될 수 있으며, 객체를 포함한 이미지가 입력되면, 객체인식용 인공신경망에서 입력 이미지의 객체 인식률을 최대화시키기 위하여 이러한 이미지의 전처리한 이미지를 출력하도록 구성될 수 있다. 일 예로, 영상 전처리 모델은 영상 전처리 확률 모델을 포함하고, 학습 데이터(예를 들어, 전처리용 인공신경망에 다양한 참조 이미지 또는 영상)를 입력하여 객체 인식률을 최대화시킬 수 있는 전처리 이미지를 추론하도록 기계학습 알고리즘을 통해 학습될 수 있다. 다른 예로, 영상 전처리 모델은 학습된 인공신경망(예를 들어, 딥 뉴럴 네트워크 등)을 포함하고, AI 학습을 통해 학습될 수 있다.
전처리 모듈(332)이 수신된 이미지의 특징을 나타내는 이미지 파라미터를 조정하여 수신된 이미지의 영상 개선 처리를 한다고 설명하였으나, 이에 한정되지 않는다. 이미지의 객체 인식률을 높이기 위해 필요에 따라 수신된 이미지에 대해 임의의 개선 처리 과정을 수행될 수 있다. 일 실시예에서, 수신된 이미지가 압축 이미지인 경우, 전처리 모듈(332)은 압축으로 인해 손실된 부분을 원본 이미지에 가깝도록 보정할 수 있다.
프로세서(330)의 객체 인식 모듈(334)은 전처리된 이미지를 객체 인식용 인공신경망의 입력층으로 입력하여 이미지 내에 포함된 객체를 인식하도록 구성될 수 있다. 예를 들어, 객체 인식 모듈(334)은 전처리된 이미지 내에 포함된 하나 이상의 객체의 종류 및 위치가 추론할 수 있다. 여기서, 객체 인식용 인공신경망은 참조 이미지를 입력 받아 참조 이미지 내의 객체를 인식하기 위해 학습되고, 이미지가 입력되었을 때 이미지 내의 객체를 추론하기 위한 임의의 인공신경망을 포함할 수 있다.
일 실시예에 따르면, 객체 인식용 인공신경망은 복수의 레이어를 포함한 딥 뉴럴 네트워크 (DNN: Deep Neural Network)를 포함할 수 있다. 예를 들어, 객체 인식용 인공신경망은 미리 학습된 콘볼루션 신경망(CNN: Convolutional Neural Network)일 수 있으며, 미리 학습된 콘볼루션 신경망을 이용하여 수신된 이미지 내에 포함된 하나 이상의 객체의 종류 및 위치가 추론할 수 있다. 여기서, 미리 학습된 콘볼루션 신경망은 입력된 입력 값에 대해 합성곱(convolution) 연산들을 수행하는 하나 이상의 계층들로 구성될 수 있으며, 입력값으로부터 합성곱(convolution) 연산을 수행하여 출력값을 추론할 수 있다. 이렇게 인식된 객체에 대한 정보는 프로세서(330)에 의해 가공될 수 있으며, 이렇게 인식된 객체에 대한 정보 또는 이를 가공한 정보는 통신 모듈(310)을 통해 그 이미지를 송신한 외부 장치로 송신할 수 있다.
일 실시예에 따르면, 객체 인식 모듈(334)은, 객체 인식용 인공신경망에 의해 인식된, 전처리된 이미지 내에 포함된 객체의 인식 결과(예를 들어, 인식률)에 대한 피드백 데이터를 생성하도록 더 구성될 수 있다. 전처리 모듈(332)은, 생성된 피드백 데이터를 기초로 수신된 이미지를 영상 개선 처리하는데 사용된 변수를 조정하도록 더 구성될 수 있다. 객체 인식 모듈(334)이 피드백 데이터를 생성하고, 생성된 피드백 데이터를 기초로 이미지의 영상 개선 처리하는 과정에 대해서는 도 5를 참조하여 상세히 설명한다.
도 4는 본 개시의 다른 실시예에 따른 이미지 객체 인식 장치(400)의 내부 구성을 간략히 나타내는 블록도이다. 도 4의 이미지 객체 인식 장치(400)는 도 3의 이미지 객체 인식 장치(300)의 구성과 동일 또는 유사한 구성을 포함할 수 있다. 이미지 객체 인식 장치(400)는 이미지 센서(410), 저장부(420), 프로세서(430)를 포함할 수 있다. 여기서, 프로세서(430)는 전처리 모듈(432) 및 객체 인식 모듈(434)을 포함할 수 있다. 도 4의 이미지 객체 인식 장치(400)의 저장부(420)는 도 3의 이미지 객체 인식 장치(300)의 저장부(420)와 동일 또는 유사한 구성을 포함할 수 있다. 도 4의 프로세서(430)의 전처리 모듈(432)은 도 3의 프로세서(330)의 전처리 모듈(332)과 동일 또는 유사한 구성을 포함할 수 있다. 도 4의 프로세서(430)의 객체 인식 모듈(434)은 도 3의 프로세서(330)의 객체 인식 모듈(334)과 동일 또는 유사한 구성을 포함할 수 있다. 도 4의 이미지 객체 인식 장치(400)의 설명과 도 3의 이미지 객체 인식 장치(300)의 설명 중 중복되는 내용은 생략된다.
이미지 객체 인식 장치(400)는 객체를 포함한 이미지를 촬상하거나 생성하도록 구성된 이미지 센서(410)를 포함할 수 있다. 즉, 도 3의 이미지 객체 인식 장치(300)와 달리, 이미지 객체 인식 장치(400)는 이미지 센서(410)를 포함하고 있어서, 이미지 센서(410)로부터 촬상된 이미지를 프로세서(430)에 전달하고, 프로세서(430)의 전처리 모듈(432) 및 객체 인식 모듈(434)을 이용하여 이미지 내의 객체를 인식할 수 있다. 도 4에서는 이미지 센서(410)를 이미지 객체 인식 장치(400)에 포함하도록 구성되어 있으나, 이에 한정되지 않으며, 이미지 센서(410)가 이미지 객체 인식 장치(400)에 포함되어 있지 않으나 이미지 센서(410)와 이미지 객체 인식 장치(400)가 하나의 장치에 포함되도록 구성될 수 있다.
도 5는 일 실시예에 따른 이미지에 포함된 객체를 인식하고 피드백 데이터를 제공하는 과정을 나타낸 블록도이다. 도 5의 전처리 모듈(532)은 도 3의 전처리 모듈(332) 및 도 4의 전처리 모듈(432)에 대응될 수 있다. 도 5의 객체 인식 모듈(534)은 도 3의 객체 인식 모듈(334) 및 도 4의 객체 인식 모듈(434)에 대응될 수 있다. 도 5에서는 도 3 또는 도 4에서 설명된 것과 동일 또는 유사한 구성요소들에 대해서는, 반복을 피하기 위해 상세한 설명이 생략될 수 있으며, 변경 또는 추가적인 부분만 설명할 수 있다.
이상에서 설명한 바와 같이, 이미지 객체 인식 장치(300)의 통신 모듈(310)은 통신 네트워크(350)를 이용하여 외부 장치로부터 객체를 포함한 이미지를 수신할 수 있고, 수신된 이미지를 프로세서의 전처리 모듈(532)로 제공할 수 있다. 이와 달리, 이미지 객체 인식 장치(400)와 동일한 장치 내에 이미지 센서(410)가 장착되어 있어서, 이미지 센서(410)에 의해 촬상된 이미지가 프로세서의 전처리 모듈(532)로 전송될 수 있다.
전처리 모듈(532)은 입력된 이미지를 영상 개선 처리할 수 있다. 일 실시예에서, 전처리 모듈(532)은 이미지의 신호 처리를 위하여 사용되는 임의의 함수 및 변수를 이용할 수 있다.
다른 실시예에서, 전처리 모듈(532)은, 영상 전처리 모델을 통해 입력된 이미지를 전처리하여 전처리된 이미지를 출력하도록 구성될 수 있다. 여기서, 영상 전처리 모델은 객체 인식용 인공신경망에서 이미지 내의 객체 인식률을 극대화하기 위한 임의의 확률 모델일 수 있다. 또 다른 예로서, 영상 전처리 모델은 CNN(CNN: convolutional neural networks), Deblur Network, Denoise Network 등과 이미지 전처리 네트워크를 포함할 수 있다.
또 다른 실시예에서, 전처리 모듈(532)은 객체의 인식에 최적화된 전처리 이미지가 출력값으로 출력되도록 학습된 전처리용 인공신경망에 의해 구현될 수 있다. 학습된 전처리용 인공신경망은 복수의 참조 이미지와 복수의 참조 이미지 각각에 대한 객체 인식 결과를 입력값으로 입력받아, 각각 참조 이미지에 포함된 객체의 인식에 최적화된 전처리 이미지가 출력값으로 출력되도록 반복 학습되어 사전 학습된 인공신경망일 수 있다. 여기서, 참조 이미지는 열화(image degradation)된 이미지와 원본 이미지로 구성된 한 쌍의 학습 데이터일 수 있다.
일 실시예에 따르면, 전처리 모듈(532)는 학습 모듈(미도시)를 더 포함하도록 구성될 수 있다. 객체 인식 장치의 학습 모듈은 복수의 참조 이미지와 복수의 참조 이미지 각각에 대한 객체 인식 결과를 기초로 객체의 인식에 최적화된 전처리 이미지를 추론하는 전처리용 인공신경망을 생성할 수 있다. 생성된 전처리 인공신경망은 객체의 인식에 최적화된 전처리 이미지를 추론할 수 있도록 기계학습 알고리즘을 통해 학습될 수 있다. 예를 들어, 학습 모듈은 인공신경망을 학습시켜 객체의 인식에 최적화되는 전처리 이미지 패턴을 추론하고, 이를 바탕으로 전처리 이미지를 출력할 수 있도록 학습시킬 수 있다. 따라서, 전처리 모듈은 학습 모듈에 의해 생성 및 학습된 전처리용 인공신경망을 이용하여 전처리 이미지를 추출할 수 있다.
전처리 모듈(532)은 학습된 인공신경망을 이용하여 외부 장치로부터 수신한 이미지 또는 이미지 센서로부터 촬상된 이미지를 입력값으로 입력받아 객체의 인식에 최적화된 전처리 이미지를 추론할 수 있고, 추론된 전처리 이미지를 객체 인식 모듈(534)로 제공할 수 있다.
객체 인식 모듈(534)은, 전처리된 이미지를 객체 인식용 인공신경망의 입력층으로 입력하여 이미지 내에 포함된 객체를 인식할 수 있고, 객체 인식용 인공신경망에 의해 인식된, 전처리된 이미지 내에 포함된 객체의 인식 결과에 대한 피드백 데이터를 생성할 수 있다. 일 실시예에 따르면, 객체 인식용 인공신경망은 미리 학습된 딥 뉴럴 네트워크(DNN: Deep Neural Network)일 수 있으나, 이에 한정되지 않는다. 다른 실시예에 따르면, 객체 인식 모듈(534)은 판독기 네트워크(예, VGG, ResNet, YOLO, SSD 등)를 이용하여 입력된 이미지 내의 객체를 탐지하거나 인식하도록 구성될 수 있다.
일 실시예에 따르면, 객체의 인식 결과에 대한 피드백 데이터는 이미지 내에 포함된 객체가 인식되었는지 여부를 포함할 수 있다. 예를 들어, 객체가 인식되었는지 여부는, 객체 인식률이 일정 이상의 임계 인식률을 초과했는지에 기초하여 판단될 수 있다. 또 다른 예로서, 객체 인식에 대한 확률 뿐만 아니라 신뢰도(confidence level)을 산출하여 이미지 내의 객체의 인식 여부가 결정될 수 있다. 객체의 인식 결과에 대한 피드백 데이터는 객체가 인식되었는지 여부 뿐만 아니라 객체의 인식 결과에 대한 임의의 가공 정보를 포함할 수 있다. 이렇게 생성된 피드백 데이터는 전처리 모듈(532)로 제공될 수 있다.
객체의 인식 결과에 대한 피드백 데이터는 피드백 데이터는 객체 인식 여부에 한정되지 않으며, 객체 인식에 대한 응답시간에 기초한 객체 인식 속도, 객체 인식의 정확도(또는, 객체 인식률), 객체를 인식한 이미지의 파라미터 등과 같이 객체 인식 중에 발생하는 다양한 파라미터 또는 객체 인식에 관여되는 다양한 요소를 포함할 수 있다.
전처리 모듈(532)은, 생성된 피드백 데이터를 기초로 수신된 이미지를 영상 개선 처리하는데 사용된 변수를 조정할 수 있다. 여기서, 변수는 수신된 이미지에 대해 영상 개선 처리 기술(예를 들어, 신호 처리 연산)을 수행할 때, 변화되는 값일 수 있다. 예를 들어, 이러한 변수는 이미지 파라미터를 결정하는 요인을 포함할 수 있다.
일 실시예에서, 전처리 모듈(532)은 이미지 파라미터를 조정하여 수신된 이미지의 영상 개선 처리를 수행할 수 있다. 예를 들어, 전처리 모듈(532)은 가우시안 필터인 다음 수식을 이용하여 수신된 이미지의 블러(blur) 파라미터 또는 서브 파라미터를 조정해 영상 개선 처리할 수 있다.
Figure PCTKR2020007303-appb-img-000001
여기서, σ는 블러링의 정도를 결정하는 변수를 나타내며, 변수 σ의 값이 클수록 이미지를 더욱 더 블러시킬 수 있다. 예를 들어, 전처리 모듈(532)은 객체 인식 모듈(534)에 의해 생성된 피드백 데이터에 기초하여 변수 σ의 값을 조정할 수 있고, 조정된 변수에 의해 수신된 이미지를 영상 개선 처리함으로써, 객체 인식률에 최적화된 전처리 이미지를 출력할 수 있다.
다른 실시예에 따르면, 전처리 모듈(532)이 영상 전처리 모델을 생성하여 입력된 이미지를 영상 개선 처리하는 경우, 객체 인식 모듈(534)에 의해 생성된 피드백 데이터를 이용하여 영상 전처리 모델을 학습시켜 영상 전처리 모델을 재구축 또는 업데이트할 수 있다. 예를 들어, 영상 전처리 모델이 인공신경망으로 이루어진 경우, 전처리 모듈(532)은 피드백 데이터를 분석하고, 분석된 결과에 기초하여 인공신경망에 포함된 가중치 값들을 수정할 수 있다.
구체적으로, 전처리 모듈(532)는 객체 인식용 인공신경망의 객체 인식률을 극대화할 수 있는 전처리 이미지를 출력할 수 있도록, 사전 학습된 객체 인식용 인공신경망을 통해 출력된 출력값인, 전처리된 이미지 내에 포함된 객체의 인식 결과와 이에 대한 피드백 데이터에 기초하여 전처리용 인공신경망의 파라미터(예: 가중치)를 학습시킬 수 있다. 객체 인식 모듈은 객체 인식용 인공신경망의 입력값으로 전처리용 인공신경망의 출력값인 객체 인식에 최적화된 전처리 이미지를 입력하여 객체를 인식할 수 있다. 객체 인식용 인공신경망에 의한 객체 인식 결과와 피드백 데이터를 이용하여 전처리용 인공신경망의 가중치를 학습시킬 수 있고, 학습된 전처리용 인공신경망으로 객체 인식에 최적화된 전처리 이미지가 객체 인식용 인공신경망에 제공됨으로써, 객체 인식용 인공신경망의 인식률이 향상될 수 있다.
전처리용 인공신경망 및 객체 인식용 인공신경망은 딥러닝 모델과 같이 사전 학습된 네트워크 일 수 있으나, 이에 한정되지 않는다. 이상에서 설명한 바와 같이, 학습 모듈을 더 포함하도록 구성되어 전처리용 인공신경망 및 객체 인식용 인공신경망 중 적어도 하나를 생성하고 학습시킬 수 있다. 인공신경망은 딥러닝 알고리즘과 같이 다양한 기계 학습 알고리즘을 사용하여 학습시킬 수 있다.
도 6은 일 실시예에 따른 전처리 모듈(632)에 의해 수신된 이미지의 영상 개선 처리를 수행하는 과정을 나타낸 블록도이다. 도 6의 전처리 모듈(632)은 도 3의 전처리 모듈(332) 및 도 4의 전처리 모듈(432)에 대응될 수 있다 이상에서 설명한 바와 같이, 전처리 모듈(632)은 외부 장치로부터 수신되거나 이미지 센서로부터 촬상된 이미지를 입력받아, 수신된 이미지를 나타내는 이미지 파라미터를 조정하여 수신된 이미지의 영상 개선 처리를 수행할 수 있다. 여기서, 이미지 파라미터는, 수신된 이미지의 디블러(Deblur), 디노이즈(Denoise), WDR(Wide Dynamic Range) 또는 HDR(High Dynamic Range), 색상 톤 매핑(color tone mapping), 디모자이킹(Demosaicing) 중 적어도 하나를 나타내는 이미지 서브 파라미터를 포함할 수 있다.
일 실시예에 따르면, 전처리 모듈(632)은, 복수의 이미지 서브 파라미터의 각각을 순차적으로 영상 개선 처리하도록 구성될 수 있다. 예를 들어, 복수의 이미지 서브 파라미터의 각각을 신호 처리할 때 복수의 이미지 서브 파라미터의 각각을 신호 처리할 때, 먼저 처리된 서브 파라미터의 신호 처리된 결과를 다음에 처리될 서브 파라미터의 신호 처리 시 반영될 수 있다. 도시된 바와 같이, 전처리 모듈(632)은 디블러에 대한 영상 신호 처리를 수행하고, 디블러에 대한 신호처리가 완료된 이미지의 디노이즈에 대한 영상 신호 처리를 수행하고, 디노이즈에 대한 신호처리가 완료된 이미지의 HDR 또는 WDR에 대한 영상 신호 처리를 수행하고, HDR 또는 WDR에 대한 신호처리가 완료된 이미지의 색상 톤 매핑에 대한 영상 신호 처리를 수행하고, 색상 톤 매핑에 대한 신호 처리가 완료된 이미지의 디모자이킹에 대한 영상 신호 처리를 수행하도록 구성될 수 있다.
일 실시예에 따르면, 전처리 모듈(632)은 이미지 내에 포함된 객체 인식에 최적화된 전처리 이미지를 추론하도록 하나의 미리 학습된 인공신경망을 이용하여 입력된 이미지에 전처리 연산을 수행할 수 있다. 도 6를 참조하면, 미리 학습된 인공신경망은 외부기기로부터 수신된 이미지를 입력층에 입력할 수 있다. 인공신경망은 입력받은 이미지를 나타내는 이미지 서브 파라미터(예를 들어, 디블러(Deblur), 디노이즈(Denoise), WDR(Wide Dynamic Range) 또는 HDR(High Dynamic Range), 색상 톤 매핑(color tone mapping) 및 디모자이킹(Demosaicing)을 도 6에 도시된 바와 같이, 디블러(Deblur), 디노이즈(Denoise), WDR(Wide Dynamic Range) 또는 HDR(High Dynamic Range), 색상 톤 매핑(color tone mapping) 및 디모자이킹(Demosaicing)의 순서에 따라 순차적으로 조정하여, 객체 인식에 최적화된 전처리 이미지를 출력층으로 출력할 수 있다.
다른 실시예에서, 전처리 모듈(332)은 하나의 학습된 인공신경망이 각각의 서브 파라미터를 순차적으로 조정하는 것이 아닌, 수신된 이미지에 대해 다수의 학습된 인공신경망(예를 들어, 디블러(Deblur) 파라미터를 조정하여 객체 인식에 최적화된 전처리 이미지를 출력하도록 학습된 디블러 조정용 인공신경망, WDR 또는 HDR 파라미터를 조정하여 객체 인식에 최적화된 전처리 이미지를 출력하도록 학습된 WDR 또는 HDR 조정용 인공신경망 등) 각각을 이용하여 서브 파라미터를 순차적으로 조정해 전처리 이미지를 출력할 수도 있다.
도 6에서는 디블러, 디노이즈, WDR 또는 HDR, 색상 톤 매핑, 디모자이킹을 나타내는 서브 파라미터가 이미지의 서브 파라미터로서 예시적으로 도시되었으나, 이에 한정되지 않으며, 이미지 서브파라미터는 이미지를 나타내는 임의의 서브 파라미터를 포함할 수 있다. 또한, 서브 파라미터를 조정하는 순서는 도 6에 도시된 순서에 한정되지 않으며, 객체 인식용 인공신경망에서의 이미지 객체 인식률의 향상을 위해 최적화된 전처리 이미지가 출력되도록 이러한 조정 순서는 변경될 수 있다.
도 7은 본 개시의 일 실시예에 따른 객체 인식 모듈에 의해 이미지에 포함된 객체를 인식하는 과정을 나타낸 예시도이다. 일 실시예에서, 객체 인식 모듈은 R-CNN(Regions with Convolutional Neural Network)을 이용하여 수신된 이미지에 포함된 객체를 인식할 수 있다. R-CNN은 도 7에 도시된 바와 같이, 입력된 이미지에서 선택적 탐색(Selective Search) 알고리즘을 이용하여 후보 영역들을 생성할 수 있다. 생성된 각 후보 영역들을 동일한 크기로 변환하고, CNN을 통해 이미지에 포함된 객체의 특징을 추출할 수 있다. 추출된 특징을 이용하여 후보 영역 내의 객체를 서포트 벡터 머신(Support Vector Machine)을 이용하여 객체를 분류할 수 있다. 도 7에 도시된 바와 같이, 인식한 객체를 이미지에 포함된 객체를 사람, 나무, 차량, 등 여러가지로 분류할 수 있다. 객체 인식 모듈은 분류된 객체를 기초로 이미지 내의 객체를 탐지하거나 인식할 수 있다.
도 7에서는 객체 인식 모듈이 R-CNN을 이용하는 것으로 예시적으로 개시하고 있으나, 이에 한정되지 않으며, 객체 인식 모듈은 이미지 내의 객체를 인식할 수 있는 임의의 인공신경망을 이용할 수 있다. 또한, R-CNN(Regions with Convolutional Neural Network)와 같은 객체 인식용 인공신경망은 AlexNet 또는 GoogleNet과 같이 사전 훈련된 네트워크를 이용하여 새로운 이미지 데이터에 포함된 객체를 인식할 수 있다. 대안적으로, 이미지 객체 인식 장치가 학습 모듈을 더 포함하도록 구성되어 학습 모듈을 통해 객체 인식용 인공신경망을 학습시킬 수 있다. 객체 인식용 인공신경망은 수천에서 수만장의 학습 데이터(학습 이미지)를 분석하여 각 객체를 구분하기 위한 특징을 학습될 수 있고, 각 객체의 차이를 식별하는 방법을 학습될 수 있다.
도 8은 이미지에 포함된 객체를 인식한 결과를 나타낸 예시도이다. 도 8을 참조하면, 딥 뉴럴 네트워크를 통해 촬상시 흔들린 이미지(810)의 객체를 인식한 경우, 객체 인식률이 61%로 나오며, 정상적으로 촬상된 (Ground truth) 이미지(820)의 객체를 딥 뉴럴 네트워크를 통해 인식하는 경우, 객체 인식률이 74%로 나오는 것을 확인할 수 있다.
일 실시예에서, 본 개시의 이미지 객체 인식 장치의 전처리 모듈은 수신된 이미지를 디블러(Deblur) 처리하여 영상 개선 처리할 수 있고, 객체 인식 모듈은 딥 뉴럴 네트워크를 이용하여 흔들린 이미지(810)를 디블러 처리한 이미지에 포함된 객체를 인식할 수 있다. 전처리 모듈을 통해 영상 개선 처리된 이미지의 객체를 인식한 결과, 흔들린 이미지(810)가 도 8에 도시된 복원 이미지(830)와 같이, 복원되었고, 객체 인식률이 82%로 흔들린 상태로 촬상된 이미지(810)보다 객체의 인식률이 높다는 것을 알 수 있다. 즉, 객체 인식용 인공신경망을 통한 이미지의 객체 인식을 하는데 있어서, 이미지를 객체 인식용 인공신경망에 입력하기 이전에 전처리 모듈은 입력 이미지를 전처리함으로써 객체 인식용 인공신경망을 통한 이미지 내의 객체를 인식하는 확률을 향상시킬 수 있다.
도 9은 본 개시의 일 실시예에 따른 이미지 객체 인식 방법을 나타낸 순서도이다. 먼저, 이미지 객체 인식 방법(900)은, 통신 모듈에 의해 객체를 포함한 이미지를 수신하는 단계(910)를 포함할 수 있다. 이러한 이미지는 이미지 객체 인식 장치 내의 통신 모듈을 통해 외부 장치로부터 수신된 이미지 및 이미지 객체 장치 내의 이미지 센서에 의해 촬상된 이미지 중 적어도 하나의 이미지를 포함할 수 있다.
전처리 모듈은 수신된 이미지 내에 포함된 객체의 인식률을 향상하기 위해 객체를 인식하기 전에 수신된 이미지를 영상 개선 처리하여 전처리된 이미지를 출력할 수 있다(920). 전처리 모듈은 이미지 파라미터를 조정하여 수신된 이미지의 영상 개선 처리를 수행할 수 있다. 전처리된 이미지는 객체 인식 모듈로 제공될 수 있다.
객체 인식 모듈은 전처리된 이미지를 객체 인식용 인공신경망의 입력층으로 입력하여 이미지 내에 포함된 객체를 인식할 수 있다(930). 일 실시예에서, 객체 인식용 인공신경망은 미리 학습된 콘볼루션 신경망(CNN: Convolutional Neural Network)일 수 있으나, 이에 한정되지 않는다. 예를 들어, 객체 인식 모듈은 미리 학습된 콘볼루션 신경망을 이용하여 수신된 이미지 내에 포함된 하나 이상의 객체의 종류 및 위치가 추론할 수 있다.
상술한 이미지 객체 인식 장치는 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현될 수도 있다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의해 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광데이터 저장장치 등이 있다. 또한, 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고, 상기 실시예들을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술분야의 프로그래머들에 의해 용이하게 추론될 수 있다.
본원에 기술된 기법들은 다양한 수단에 의해 구현될 수도 있다. 예를 들어, 이러한 기법들은 하드웨어, 펌웨어, 소프트웨어, 또는 이들의 조합으로 구현될 수도 있다. 본원의 개시와 연계하여 설명된 다양한 예시적인 논리적 블록들, 모듈들, 회로들, 및 알고리즘 단계들은 전자 하드웨어, 컴퓨터 소프트웨어, 또는 양자의 조합들로 구현될 수도 있음을 당업자들은 더 이해할 것이다. 하드웨어 및 소프트웨어의 이러한 상호교환성을 명확하게 설명하기 위해, 다양한 예시적인 컴포넌트들, 블록들, 모듈들, 회로들, 및 단계들이 그들의 기능성의 관점에서 일반적으로 위에서 설명되었다. 그러한 기능이 하드웨어로서 구현되는지 또는 소프트웨어로서 구현되는 지의 여부는, 특정 애플리케이션 및 전체 시스템에 부과되는 설계 제약들에 따라 달라진다. 당업자들은 각각의 특정 애플리케이션을 위해 다양한 방식들로 설명된 기능을 구현할 수도 있으나, 그러한 구현 결정들은 본 개시의 범위로부터 벗어나게 하는 것으로 해석되어서는 안된다.
하드웨어 구현에서, 기법들을 수행하는 데 이용되는 프로세싱 유닛들은, 하나 이상의 ASIC들, DSP들, 디지털 신호 프로세싱 디바이스들 (digital signal processing devices; DSPD들), 프로그램가능 논리 디바이스들 (programmable logic devices; PLD들), 필드 프로그램가능 게이트 어레이들 (field programmable gate arrays; FPGA들), 프로세서들, 제어기들, 마이크로제어기들, 마이크로프로세서들, 전자 디바이스들, 본원에 설명된 기능들을 수행하도록 설계된 다른 전자 유닛들, 컴퓨터, 또는 이들의 조합 내에서 구현될 수도 있다.
따라서, 본원의 개시와 연계하여 설명된 다양한 예시적인 논리 블록들, 모듈들, 및 회로들은 범용 프로세서, DSP, ASIC, FPGA나 다른 프로그램 가능 논리 디바이스, 이산 게이트나 트랜지스터 로직, 이산 하드웨어 컴포넌트들, 또는 본원에 설명된 기능들을 수행하도록 설계된 것들의 임의의 조합으로 구현되거나 수행될 수도 있다. 범용 프로세서는 마이크로프로세서일 수도 있지만, 대안에서, 프로세서는 임의의 종래의 프로세서, 제어기, 마이크로제어기, 또는 상태 머신일 수도 있다. 프로세서는 또한, 컴퓨팅 디바이스들의 조합, 예를 들면, DSP와 마이크로프로세서, 복수의 마이크로프로세서들, DSP 코어와 연계한 하나 이상의 마이크로프로세서들, 또는 임의의 다른 그러한 구성의 조합으로서 구현될 수도 있다.
펌웨어 및/또는 소프트웨어 구현에 있어서, 기법들은 랜덤 액세스 메모리 (random access memory; RAM), 판독 전용 메모리 (read-only memory; ROM), 불휘발성 RAM (non-volatile random access memory; NVRAM), PROM (programmable read-only memory), EPROM (erasable programmable read-only memory), EEPROM (electrically erasable PROM), 플래시 메모리, 컴팩트 디스크 (compact disc; CD), 자기 또는 광학 데이터 스토리지 디바이스 등과 같은 컴퓨터 판독가능 매체 상에 저장된 명령들로서 구현될 수도 있다. 명령들은 하나 이상의 프로세서들에 의해 실행가능할 수도 있고, 프로세서(들)로 하여금 본원에 설명된 기능의 특정 양태들을 수행하게 할 수도 있다.
소프트웨어로 구현되면, 상기 기능들은 하나 이상의 명령들 또는 코드로서 컴퓨터 판독 가능한 매체 상에 저장되거나 또는 컴퓨터 판독 가능한 매체를 통해 전송될 수도 있다. 컴퓨터 판독가능 매체들은 한 장소에서 다른 장소로 컴퓨터 프로그램의 전송을 용이하게 하는 임의의 매체를 포함하여 컴퓨터 저장 매체들 및 통신 매체들 양자를 포함한다. 저장 매체들은 컴퓨터에 의해 액세스될 수 있는 임의의 이용 가능한 매체들일 수도 있다. 비제한적인 예로서, 이러한 컴퓨터 판독가능 매체는 RAM, ROM, EEPROM, CD-ROM 또는 다른 광학 디스크 스토리지, 자기 디스크 스토리지 또는 다른 자기 스토리지 디바이스들, 또는 소망의 프로그램 코드를 명령들 또는 데이터 구조들의 형태로 이송 또는 저장하기 위해 사용될 수 있으며 컴퓨터에 의해 액세스될 수 있는 임의의 다른 매체를 포함할 수 있다. 또한, 임의의 접속이 컴퓨터 판독가능 매체로 적절히 칭해진다.
예를 들어, 소프트웨어가 동축 케이블, 광섬유 케이블, 연선, 디지털 가입자 회선 (DSL), 또는 적외선, 무선, 및 마이크로파와 같은 무선 기술들을 사용하여 웹사이트, 서버, 또는 다른 원격 소스로부터 전송되면, 동축 케이블, 광섬유 케이블, 연선, 디지털 가입자 회선, 또는 적외선, 무선, 및 마이크로파와 같은 무선 기술들은 매체의 정의 내에 포함된다. 본원에서 사용된 디스크 (disk) 와 디스크 (disc)는, CD, 레이저 디스크, 광 디스크, DVD (digital versatile disc), 플로피디스크, 및 블루레이 디스크를 포함하며, 여기서 디스크들 (disks) 은 보통 자기적으로 데이터를 재생하고, 반면 디스크들 (discs) 은 레이저를 이용하여 광학적으로 데이터를 재생한다. 위의 조합들도 컴퓨터 판독가능 매체들의 범위 내에 포함되어야 한다.
소프트웨어 모듈은 RAM 메모리, 플래시 메모리, ROM 메모리, EPROM 메모리, EEPROM 메모리, 레지스터들, 하드 디스크, 이동식 디스크, CD-ROM, 또는 공지된 임의의 다른 형태의 저장 매체 내에 상주할 수도 있다. 예시적인 저장 매체는, 프로세가 저장 매체로부터 정보를 판독하거나 저장 매체에 정보를 기록할 수 있도록, 프로세서에 커플링될 수 있다. 대안으로, 저장 매체는 프로세서에 통합될 수도 있다. 프로세서와 저장 매체는 ASIC 내에 존재할 수도 있다. ASIC은 유저 단말 내에 존재할 수도 있다. 대안으로, 프로세서와 저장 매체는 유저 단말에서 개별 컴포넌트들로서 존재할 수도 있다.
본 개시의 앞선 설명은 당업자들이 본 개시를 행하거나 이용하는 것을 가능하게 하기 위해 제공된다. 본 개시의 다양한 수정예들이 당업자들에게 쉽게 자명할 것이고, 본원에 정의된 일반적인 원리들은 본 개시의 취지 또는 범위를 벗어나지 않으면서 다양한 변형예들에 적용될 수도 있다. 따라서, 본 개시는 본원에 설명된 예들에 제한되도록 의도된 것이 아니고, 본원에 개시된 원리들 및 신규한 특징들과 일관되는 최광의의 범위가 부여되도록 의도된다.
비록 예시적인 구현예들이 하나 이상의 독립형 컴퓨터 시스템의 맥락에서 현재 개시된 주제의 양태들을 활용하는 것을 언급할 수도 있으나, 본 주제는 그렇게 제한되지 않고, 오히려 네트워크나 분산 컴퓨팅 환경과 같은 임의의 컴퓨팅 환경과 연계하여 구현될 수도 있다. 또 나아가, 현재 개시된 주제의 양상들은 복수의 프로세싱 칩들이나 디바이스들에서 또는 그들에 걸쳐 구현될 수도 있고, 스토리지는 복수의 디바이스들에 걸쳐 유사하게 영향을 받게 될 수도 있다. 이러한 디바이스들은 PC들, 네트워크 서버들, 및 핸드헬드 디바이스들을 포함할 수도 있다.
비록 본 주제가 구조적 특징들 및/또는 방법론적 작용들에 특정한 언어로 설명되었으나, 첨부된 청구항들에서 정의된 주제가 위에서 설명된 특정 특징들 또는 작용들로 반드시 제한되는 것은 아님이 이해될 것이다. 오히려, 위에서 설명된 특정 특징들 및 작용들은 청구항들을 구현하는 예시적인 형태로서 설명된다.
이 명세서에서 언급된 방법은 특정 실시예들을 통하여 설명되었지만, 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의해 읽혀 질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광데이터 저장장치 등이 있다. 또한, 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고, 실시예들을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술분야의 프로그래머들에 의해 용이하게 추론될 수 있다.
본 명세서에서는 본 개시가 일부 실시예들과 관련하여 설명되었지만, 본 발명이 속하는 기술분야의 통상의 기술자가 이해할 수 있는 본 개시의 범위를 벗어나지 않는 범위에서 다양한 변형 및 변경이 이루어질 수 있다. 또한, 그러한 변형 및 변경은 본 명세서에 첨부된 특허청구의 범위 내에 속하는 것으로 생각되어야 한다.

Claims (9)

  1. 이미지에 포함된 객체를 인식하는 장치에 있어서,
    상기 객체를 포함한 이미지를 수신하고, 상기 수신된 이미지 내에 포함된 객체의 인식률을 향상하기 위해 상기 수신된 이미지를 영상 개선 처리하여 전처리 이미지를 출력하도록 구성된 전처리 모듈; 및
    상기 전처리 이미지를 객체 인식용 인공신경망의 입력층으로 입력하여 상기 이미지 내에 포함된 객체를 인식하도록 구성된 객체 인식 모듈을 포함하고,
    상기 전처리 모듈은, 상기 객체 인식용 인공신경망에서의 상기 수신된 이미지 내에 포함된 객체의 인식률을 향상하기 위해, 상기 수신된 객체를 포함한 이미지를 전처리용 인공신경망의 입력층으로 입력하여 상기 전처리 이미지를 출력하도록 더 구성되고,
    상기 전처리 모듈은, 복수의 참조 이미지를 상기 전처리용 인공신경망의 입력층으로 입력하여 상기 객체 인식용 인공신경망을 통한 객체 인식률의 향상에 최적화된 복수의 참조 전처리 이미지가 추론되도록 상기 전처리용 인공신경망을 학습시키는 학습 모듈 - 상기 복수의 참조 이미지의 각각은 객체를 포함함 - 을 포함하는, 이미지 객체 인식 장치.
  2. 제1항에 있어서,
    상기 객체 인식 모듈은, 상기 복수의 참조 전처리 이미지를 상기 객체 인식용 인공신경망의 입력층으로 입력하여 상기 복수의 참조 전처리 이미지의 각각에 포함된 객체의 인식 결과에 대한 피드백 결과를 생성하도록 더 구성되고,
    상기 전처리 모듈은 상기 피드백 결과를 이용하여 상기 전처리용 인공신경망을 학습시키도록 더 구성된, 이미지 객체 인식 장치.
  3. 제1항에 있어서,
    상기 객체 인식 모듈은 상기 전처리 이미지 내에 포함된 객체의 인식 결과에 대한 피드백 결과를 생성하도록 더 구성되고,
    상기 전처리 모듈은 상기 전처리 이미지 내에 포함된 객체의 인식 결과에 대한 피드백 결과를 이용하여 상기 전처리용 인공신경망을 학습시키도록 더 구성된,
    이미지 객체 인식 장치.
  4. 제1항에 있어서,
    상기 객체 인식용 인공신경망은 복수의 레이어를 포함한 딥 뉴럴 네트워크를 포함하며,
    상기 객체 인식 모듈은, 상기 객체 인식용 인공신경망을 통해 입력된 상기 전처리 이미지에 포함된 객체의 종류 및 위치를 추론하도록 더 구성된,
    이미지 객체 인식 장치.
  5. 이미지에 포함된 객체를 인식하는 장치에 있어서,
    상기 객체를 포함한 이미지를 수신하고, 상기 수신된 이미지 내에 포함된 객체의 인식률을 향상하기 위해 상기 수신된 이미지를 Denoise 연산 처리, Deblur 연산 처리, High Dynamic Range 연산 처리, Color Tone Mapping 연산 처리, Defog 연산 처리, Brightness 연산 처리, Contrast 연산 처리, Auto White Balance 연산 처리, Back Light Compensation 연산 처리 또는 Decompression 연산 처리 중 적어도 하나의 영상 개선 처리하여 전처리된 이미지를 출력하도록 구성된 전처리 모듈; 및
    상기 전처리된 이미지를 객체 인식용 인공신경망의 입력층으로 입력하여 상기 이미지 내에 포함된 객체를 인식하도록 구성된 객체 인식 모듈을 포함하는,
    이미지 객체 인식 장치.
  6. 제5항에 있어서,
    상기 전처리 모듈은, 상기 수신된 이미지를 나타내는 이미지 파라미터를 조정하여 상기 수신된 이미지의 영상 개선 처리를 수행하도록 더 구성된, 이미지 객체 인식 장치.
  7. 제6항에 있어서,
    상기 이미지 파라미터가 상기 수신된 이미지를 나타내는 복수의 이미지 서브 파라미터를 포함하고,
    상기 전처리 모듈은, 상기 복수의 이미지 서브 파라미터의 각각을 순차적으로 영상 개선 처리하도록 구성된,
    이미지 객체 인식 장치.
  8. 이미지에 포함된 객체를 인식하는 방법에 있어서,
    상기 객체를 포함한 이미지를 수신하는 단계;
    전처리 모듈에 의해 상기 수신된 이미지 내에 포함된 객체의 인식률을 향상하기 위해 상기 수신된 이미지를 영상 개선 처리하여 전처리 이미지를 출력하는 단계; 및
    객체 인식 모듈에 의해 상기 전처리 이미지를 객체 인식용 인공신경망의 입력층으로 입력하여 상기 이미지 내에 포함된 객체를 인식하는 단계를 포함하고,
    상기 전처리 모듈에 의해 전처리 이미지를 출력하는 단계는, 상기 객체 인식용 인공신경망에서의 상기 수신된 이미지 내에 포함된 객체의 인식률을 향상하기 위해, 상기 수신된 객체를 포함한 이미지를 전처리용 인공신경망의 입력층으로 입력하여 상기 전처리 이미지를 출력하는 단계를 포함하고,
    상기 전처리 모듈에 의해 전처리 이미지를 출력하는 단계는, 복수의 참조 이미지를 상기 전처리용 인공신경망의 입력층으로 입력하여 상기 객체 인식용 인공신경망을 통한 객체 인식률의 향상에 최적화된 참조 전처리 이미지가 추론되도록 상기 전처리용 인공신경망을 학습시키는 단계 - 상기 복수의 참조 이미지의 각각은 객체를 포함함 -를 포함하는,
    이미지 객체 인식 방법.
  9. 이미지에 포함된 객체를 인식하는 방법에 있어서,
    상기 객체를 포함한 이미지를 수신하는 단계;
    전처리 모듈에 의해 상기 수신된 이미지 내에 포함된 객체의 인식률을 향상하기 위해 상기 수신된 이미지를 Denoise 연산 처리, Deblur 연산 처리, High Dynamic Range 연산 처리, Color Tone Mapping 연산 처리, Defog 연산 처리, Brightness 연산 처리, Contrast 연산 처리, Auto White Balance 연산 처리, Back Light Compensation 연산 처리, Decompression 연산 처리 중 적어도 하나의 영상 개선 처리하여 전처리된 이미지를 출력하는 단계; 및
    객체 인식 모듈에 의해 상기 전처리된 이미지를 객체 인식용 인공신경망의 입력층으로 입력하여 상기 이미지 내에 포함된 객체를 인식하는 단계를 포함하는, 이미지 객체 인식 방법.
PCT/KR2020/007303 2018-12-28 2020-06-04 이미지 객체 인식 장치 및 방법 WO2020246834A1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US17/256,582 US11636670B2 (en) 2018-12-28 2020-06-04 Method for recognizing object in image
CN202080007580.0A CN113330450A (zh) 2019-06-04 2020-06-04 用于识别图像中的对象的方法
US18/125,666 US20230237792A1 (en) 2018-12-28 2023-03-23 Object detection apparatus using an image preprocessing artificial neural network model

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2019-0066240 2018-12-28
KR1020190066240A KR102097905B1 (ko) 2019-06-04 2019-06-04 이미지 객체 인식 장치 및 방법

Related Child Applications (2)

Application Number Title Priority Date Filing Date
US17/256,582 A-371-Of-International US11636670B2 (en) 2018-12-28 2020-06-04 Method for recognizing object in image
US18/125,666 Continuation US20230237792A1 (en) 2018-12-28 2023-03-23 Object detection apparatus using an image preprocessing artificial neural network model

Publications (1)

Publication Number Publication Date
WO2020246834A1 true WO2020246834A1 (ko) 2020-12-10

Family

ID=70282223

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2020/007303 WO2020246834A1 (ko) 2018-12-28 2020-06-04 이미지 객체 인식 장치 및 방법

Country Status (4)

Country Link
US (2) US11636670B2 (ko)
KR (1) KR102097905B1 (ko)
CN (1) CN113330450A (ko)
WO (1) WO2020246834A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113763261A (zh) * 2021-06-29 2021-12-07 中国科学院沈阳自动化研究所 一种海雾气象条件下的远小目标实时检测方法

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102097905B1 (ko) 2019-06-04 2020-04-06 주식회사 딥엑스 이미지 객체 인식 장치 및 방법
KR102370886B1 (ko) 2019-11-06 2022-03-07 한국과학기술연구원 전처리 모듈을 포함하는 머신 러닝 기반의 인공지능을 이용하는 영상 분석 장치
KR20220078283A (ko) * 2020-12-03 2022-06-10 삼성전자주식회사 뉴럴 네트워크 프로세서를 구비하는 이미지 처리 장치 및 이의 동작 방법
KR102550869B1 (ko) 2021-01-27 2023-07-05 인하대학교 산학협력단 유전 알고리즘 및 cnn을 이용한 물체 분류 및 집계 방법
WO2022192596A1 (en) * 2021-03-10 2022-09-15 Lattice Semiconductor Corporation Image tagging engine systems and methods for programmable logic devices
CN115885310A (zh) 2021-07-30 2023-03-31 蒂普爱可斯有限公司 图像信号处理器的控制方法以及执行该方法的控制设备
KR102390891B1 (ko) 2021-12-21 2022-04-26 주식회사 그레온 오토 라벨링을 통한 학습데이터 가공 서비스 제공 장치, 방법 및 프로그램
KR102428326B1 (ko) 2021-12-21 2022-08-02 서울시립대학교 산학협력단 인공지능 기반의 결함 탐지 방법 및 시스템
KR102436494B1 (ko) * 2022-06-02 2022-08-26 (주) 인터마인즈 상품인식 알고리즘을 통한 상품 판매개수 산출방법 및 산출장치
US11907841B1 (en) 2023-05-01 2024-02-20 Ian Truitner Machine learning based consumer product identification system and method therefor

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110054886A (ko) * 2009-11-18 2011-05-25 원광대학교산학협력단 조명변화에 견고한 얼굴 표정 인식방법
KR101902500B1 (ko) * 2012-04-16 2018-10-01 삼성디스플레이 주식회사 유기 발광 표시 장치 및 그 테스트 방법
KR20190016367A (ko) * 2017-08-08 2019-02-18 삼성전자주식회사 객체를 인식하는 방법 및 장치
KR20190034021A (ko) * 2017-09-22 2019-04-01 삼성전자주식회사 객체를 인식하는 방법 및 장치
KR101982231B1 (ko) * 2017-08-31 2019-05-24 경북대학교 산학협력단 객체 인식 장치 및 그 제어 방법
KR102097905B1 (ko) * 2019-06-04 2020-04-06 주식회사 딥엑스 이미지 객체 인식 장치 및 방법

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104866868B (zh) * 2015-05-22 2018-09-07 杭州朗和科技有限公司 基于深度神经网络的金属币识别方法和装置
US9805305B2 (en) * 2015-08-07 2017-10-31 Yahoo Holdings, Inc. Boosted deep convolutional neural networks (CNNs)
WO2017206066A1 (en) * 2016-05-31 2017-12-07 Nokia Technologies Oy Method and apparatus for detecting small objects with an enhanced deep neural network
KR101802500B1 (ko) * 2016-10-20 2017-11-28 재단법인대구경북과학기술원 영상 인식을 위한 학습 장치 및 그 학습 방법
CN108875486A (zh) * 2017-09-28 2018-11-23 北京旷视科技有限公司 目标对象识别方法、装置、系统和计算机可读介质
CN108446667A (zh) * 2018-04-04 2018-08-24 北京航空航天大学 基于生成对抗网络数据增强的人脸表情识别方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110054886A (ko) * 2009-11-18 2011-05-25 원광대학교산학협력단 조명변화에 견고한 얼굴 표정 인식방법
KR101902500B1 (ko) * 2012-04-16 2018-10-01 삼성디스플레이 주식회사 유기 발광 표시 장치 및 그 테스트 방법
KR20190016367A (ko) * 2017-08-08 2019-02-18 삼성전자주식회사 객체를 인식하는 방법 및 장치
KR101982231B1 (ko) * 2017-08-31 2019-05-24 경북대학교 산학협력단 객체 인식 장치 및 그 제어 방법
KR20190034021A (ko) * 2017-09-22 2019-04-01 삼성전자주식회사 객체를 인식하는 방법 및 장치
KR102097905B1 (ko) * 2019-06-04 2020-04-06 주식회사 딥엑스 이미지 객체 인식 장치 및 방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113763261A (zh) * 2021-06-29 2021-12-07 中国科学院沈阳自动化研究所 一种海雾气象条件下的远小目标实时检测方法
CN113763261B (zh) * 2021-06-29 2023-12-26 中国科学院沈阳自动化研究所 一种海雾气象条件下的远小目标实时检测方法

Also Published As

Publication number Publication date
KR102097905B1 (ko) 2020-04-06
US11636670B2 (en) 2023-04-25
CN113330450A (zh) 2021-08-31
US20230237792A1 (en) 2023-07-27
US20220083797A1 (en) 2022-03-17

Similar Documents

Publication Publication Date Title
WO2020246834A1 (ko) 이미지 객체 인식 장치 및 방법
WO2021164234A1 (zh) 图像处理方法以及图像处理装置
CN108780508B (zh) 用于归一化图像的系统和方法
WO2021107610A1 (en) Method and system for generating a tri-map for image matting
US10839222B2 (en) Video data processing
WO2022082999A1 (zh) 一种物体识别方法、装置、终端设备及存储介质
WO2021071286A1 (ko) 생성적 적대 신경망 기반의 의료영상 학습 방법 및 장치
US20210350129A1 (en) Using neural networks for object detection in a scene having a wide range of light intensities
TW202135507A (zh) 非監督式惡意流量偵測系統及方法
CN108985221A (zh) 视频片段检测方法、装置、设备和存储介质
WO2022116744A1 (en) Systems and methods for object recognition
US11568251B1 (en) Dynamic quantization for models run on edge devices
WO2023080667A1 (ko) Ai 기반 객체인식을 통한 감시카메라 wdr 영상 처리
US20230222639A1 (en) Data processing method, system, and apparatus
CN114170271B (zh) 一种具有自跟踪意识的多目标跟踪方法、设备及存储介质
KR20210041328A (ko) 인공지능 기반 얼굴 인식 장치 및 방법
CN112580786B (zh) 一种用于ReID的神经网络构造方法及其训练方法
CN112597793B (zh) 用于识别交通灯状态和计时器状态的方法、装置和设备
WO2021071258A1 (ko) 인공지능 기반의 휴대용 보안영상 학습장치 및 방법
WO2022155890A1 (en) Decreased quantization latency
WO2022256109A1 (en) Glare removal using dual cameras
WO2021189321A1 (zh) 一种图像处理方法和装置
CN114387484A (zh) 一种基于yolov4改进的口罩佩戴检测方法及系统
WO2024010133A1 (ko) 머신 러닝을 이용한 영상 노이즈 학습 서버 및 영상 노이즈 저감 장치
WO2024038990A1 (ko) 영상 개선 뉴럴 네트워크 모델의 학습 방법 및 장치

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20818882

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20818882

Country of ref document: EP

Kind code of ref document: A1