WO2023243904A1 - 이미지 분석을 위한 파생 이미지를 생성하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능한 기록 매체 - Google Patents

이미지 분석을 위한 파생 이미지를 생성하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능한 기록 매체 Download PDF

Info

Publication number
WO2023243904A1
WO2023243904A1 PCT/KR2023/007332 KR2023007332W WO2023243904A1 WO 2023243904 A1 WO2023243904 A1 WO 2023243904A1 KR 2023007332 W KR2023007332 W KR 2023007332W WO 2023243904 A1 WO2023243904 A1 WO 2023243904A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
derived
target object
basic
size
Prior art date
Application number
PCT/KR2023/007332
Other languages
English (en)
French (fr)
Inventor
박준영
신종호
김지혜
Original Assignee
주식회사 유엑스팩토리
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 유엑스팩토리 filed Critical 주식회사 유엑스팩토리
Publication of WO2023243904A1 publication Critical patent/WO2023243904A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/20Processor architectures; Processor configuration, e.g. pipelining
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Definitions

  • the present invention relates to methods, systems, and non-transitory computer-readable recording media for generating derived images for image analysis.
  • sub sampling or down scaling e.g., CNN (CNN) is used to reduce the size of captured images for various purposes such as improving detection performance.
  • CNN CNN
  • pooling which is performed in an artificial neural network model based on a Convolutional Neural Network, to be performed and various operations to be processed based on this.
  • computing resources e.g., high-performance GPU, high-capacity memory, etc.
  • the present inventor(s) obtains a basic image related to the target object, and uses a valid signal generated based on the basic image and a scale factor related to the basic image to We propose a technology that reduces the computing resources required for object detection (or image analysis) (e.g., amount of calculations to be processed, required memory, chip size, etc.) by generating at least one derived image of small size.
  • the purpose of the present invention is to solve all the problems of the prior art described above.
  • a representative configuration of the present invention to achieve the above object is as follows.
  • a method includes generating at least one derivative image that is smaller in size than the image.
  • computing resources required for object detection (or image analysis) can be reduced.
  • FIG. 1 is a diagram showing a schematic configuration of an entire system for generating derived images for image analysis according to an embodiment of the present invention.
  • Figure 2 is a diagram illustrating in detail the internal configuration of an image analysis system according to an embodiment of the present invention.
  • 3 and 4 are diagrams illustrating a process for generating a derived image according to an embodiment of the present invention.
  • Figure 5 is a diagram illustrating a process for detecting a target object according to an embodiment of the present invention.
  • ISP Image Signal Processor
  • detection in the field of computer vision, the terms detection, recognition, and classification are often used separately, but the meaning of the term detection used in this specification does not necessarily follow the above distinction. It does not follow, and should be understood as a broad concept that can include the meaning of recognition or classification.
  • FIG. 1 is a diagram showing a schematic configuration of an entire system for generating derived images for image analysis according to an embodiment of the present invention.
  • FIG. 2 is a diagram illustrating in detail the internal configuration of the image analysis system 200 according to an embodiment of the present invention.
  • the basic image acquisition unit 210 may perform a function of acquiring a basic image about the target object.
  • the target object is an object that is subject to detection by the target object detection unit 230 according to an embodiment of the present invention, and the role played by the image analysis system 200 follows. It may be decided differently.
  • the target object when the image analysis system 200 is included in a facial recognition-based access control system, the target object may be a human face, and the image analysis system 200 may be a robot vacuum cleaner.
  • the target object when included, the target object may be an object with a fixed location or relatively large size, such as furniture or electronics in the house, and/or an object with a changing location or relatively small size, such as trash or socks discarded on the floor.
  • the target object is an object whose location is fixed, such as a streetlight, a rock, or a building, and/or an object whose location changes, such as a traffic light, a traffic sign, a vehicle, or a pedestrian. It can be.
  • the target object according to an embodiment of the present invention is not limited to those listed above, and may be changed in various ways within the scope of achieving the purpose of the present invention.
  • a scale factor related to a basic image may mean a type of magnification applied when creating a derived image by changing the size of the basic image.
  • the scale factor for the basic image is 1/4
  • a derived image in which both the horizontal and vertical sizes are reduced to 1/4 of the basic image that is, the size is the basic image size
  • a derived image is created that is 1/16 (1/4 x 1/4) of That is, a derived image whose size is 1/4 (1/2 x 1/2) of the basic image size can be created (the scale factor for the basic image itself can be considered 1).
  • Figure 3 is a diagram illustrating a process for generating a derived image according to an embodiment of the present invention.
  • an effective signal 330 that can be generated when the scale factor according to an embodiment of the present invention is 1/2 can be seen.
  • the derived image generator 220 according to an embodiment of the present invention generates 10 times while reading one row (there are 20 pixels) of a 20 x 8 size frame (i.e., while HSYNC maintains the High value).
  • a valid signal can be generated (301).
  • the derived image generator 220 according to an embodiment of the present invention may prevent a valid signal from being generated while reading the next row of the frame (i.e., while HSYNC maintains the High value). (302).
  • Figures 4(a) and 4(b) are diagrams illustrating in more detail the process of generating a derived image according to an embodiment of the present invention.
  • both the horizontal and vertical sizes from the basic image 400 of 20 x 8 size are 1 of the basic image 400.
  • This is a diagram illustrating the process of creating a derived image reduced to /4, that is, a derivative image whose size is 1/16 (1/4 x 1/4) of the basic image size.
  • a derived image of size 5 x 2 which is 1/16 of the size of the base image (i.e., an image consisting of only those valid pixels) can be created.
  • the derived image generator 220 can cause a valid signal to be generated by the image signal processor (ISP) 100.
  • ISP image signal processor
  • subsampling or downscaling is usually performed to reduce the size of captured images for various purposes such as improving detection performance, and logic or software (or memory in addition to it) to perform these functions is required.
  • the derived image generator 220 generates a valid signal based on a scale factor related to the basic image in hardware in the image signal processor (ISP) 100.
  • a simple and cost-effective method can be used without additional logic or software (or additional memory) as described above.
  • additional logic or software or additional memory
  • the same effect as when sampling or downscaling is performed can be achieved.
  • the computing resources required for object detection e.g., amount of calculations to be processed, required memory, chip size, etc.
  • the derived image generator 220 adaptively generates a valid signal based on the role played by the image analysis system 200 including an image signal processor (ISP) 100. It can be done as much as possible.
  • ISP image signal processor
  • the image analysis system 200 may perform various roles depending on the situation, depending on which device or system it is included in, or in addition to or instead of it.
  • the derived image generator 220 according to an embodiment of the present invention adaptively determines a scale factor for the basic image based on this role, and the effective signal is adaptively generated based on the determined scale factor. It can be created with .
  • the image analysis system 200 is included in a robot vacuum cleaner.
  • the robot vacuum cleaner performs the role of detecting objects with fixed positions or relatively large sizes, such as furniture or electronic products, in order to create/update a map or determine its own location, only a small number of derived images are generated. Since a highly reliable detection result can be obtained even by using By using the effective signal generated based on the basic image size, only a derived image of 1/16 the size of the basic image size and a derived image of 1/4 the size of the basic image size can be generated.
  • the target object detector 230 inputs the basic image related to the target object and at least one derivative image smaller in size than the basic image into the artificial neural network model, thereby matching the basic image and at least the above basic image.
  • a function of detecting a target object from at least one of one derived image may be performed.
  • the artificial neural network model into which the above basic image and at least one derived image are input may be a CNN-based model.
  • the artificial neural network model according to an embodiment of the present invention may be a model based on MTCNN (Multi-Task Cascaded Convolutional Neural Network), but is not limited thereto and is within the scope of achieving the purpose of the present invention. It can be changed in various ways.
  • MTCNN Multi-Task Cascaded Convolutional Neural Network
  • pooling may not be performed in the artificial neural network model according to an embodiment of the present invention.
  • CNN-based artificial neural network models generally have a pooling layer, and subsampling is usually performed here through pooling (e.g., max pooling, average pooling, etc.).
  • this pooling step is performed by generating at least one derivative image smaller in size than the basic image using an effective signal generated based on a scale factor related to the basic image. It can be omitted.
  • Figure 5 is a diagram illustrating a process for detecting a target object according to an embodiment of the present invention. Here, the explanation will be made assuming that the target object is a face.
  • the basic image acquisition unit 210 may acquire a basic image about a target object from a CMOS image sensor (510).
  • the derived image generator 220 according to an embodiment of the present invention generates at least one derived image smaller in size than the basic image using an effective signal generated based on a scale factor related to the basic image.
  • Can (520) a derived image when the scale factor is 1/4 (i.e., a derived image with a size of 1/16 of the basic image size) and a derived image when the scale factor is 1/2 (i.e., a derived image with a size of 1/16 of the basic image size) 4 derived images of size 530 and 540 are created.
  • the target object detection unit 230 inputs the derived images into the artificial neural network model in descending order of size, and detects the target object from the derived image of a specific size.
  • the result can be associated with the input of a derived image of the next size.
  • the target object detection unit 230 inputs the smallest size derived image into the artificial neural network and creates a 12x12 kernel (for convenience of explanation, the number of channels such as RGB or the depth of the kernel (decided not to display) can be used to detect a face (more precisely, a candidate face estimated to be a face) and recognize its coordinate information (530). Then, the target object detection unit 230 according to an embodiment of the invention inputs the derived image of the next size into the artificial neural network and detects the face using a 24x24 kernel, and detects the target object using the detection result of the previous step.
  • a 12x12 kernel for convenience of explanation, the number of channels such as RGB or the depth of the kernel (decided not to display) can be used to detect a face (more precisely, a candidate face estimated to be a face) and recognize its coordinate information (530).
  • the target object detection unit 230 inputs the derived image of the next size into the artificial neural network and detects the face using a 24x24 kernel, and detects the
  • the coordinates or areas of candidate faces derived as a detection result of the previous step can be converted to correspond to the derived image of the current step.
  • candidate faces were detected based on the derived image generated when the scale factor is 1/4, so the coordinates or areas of the candidate faces are derived images generated when the scale factor is 1/2. Coordinate transformation can be performed to correspond to .

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Processing (AREA)

Abstract

본 발명의 일 태양에 따르면, 이미지 분석을 위한 파생 이미지를 생성하기 위한 방법으로서, 타겟 객체에 관한 기본 이미지를 획득하는 단계, 및 상기 기본 이미지 및 상기 기본 이미지에 관한 스케일 팩터(scale factor)를 결정짓는 유효(valid) 신호에 기초하여 상기 기본 이미지보다 사이즈가 작은 적어도 하나의 파생 이미지를 생성하는 단계를 포함하는 방법이 제공된다.

Description

이미지 분석을 위한 파생 이미지를 생성하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능한 기록 매체
본 발명은 이미지 분석을 위한 파생 이미지를 생성하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능한 기록 매체에 관한 것이다.
근래에 들어, 머신 러닝 기술에 관한 연구가 활발히 이루어지면서, 이미지 센서와 인공 신경망 모델을 이용하여 촬영 이미지로부터 객체를 검출하는 등의 이미지 분석 기술들이 소개된 바 있다.
이러한 객체 검출(또는 이미지 분석)을 위하여 이용되는 인공 신경망 모델에서는 검출 성능 향상 등 여러 가지 목적으로 촬영 이미지의 사이즈를 줄이는 서브 샘플링(sub sampling) 내지 다운 스케일링(down scaling)(예를 들면, CNN(Convolutional Neural Network) 기반의 인공 신경망 모델에서 수행되는 풀링(pooling))이 수행되고, 이를 바탕으로 다양한 연산이 처리되는 것이 일반적인데, 이를 원활히 수행하기 위하여는 상당히 많은 컴퓨팅 리소스(예를 들면, 고성능의 GPU, 고용량의 메모리 등)가 필수적이었다.
그러나, 이러한 객체 검출(또는 이미지 분석) 기술은 주로 스마트폰, 자율 주행차, 드론, 로봇 등의 에지 디바이스(edge device)에서 실현되기 때문에, 에지 디바이스(또는 에지 디바이스에 포함되는 이미지 분석 시스템(모듈))의 소형화, 생산 비용 절감, 객체 검출 속도 향상 등의 측면에서 객체 검출(또는 이미지 분석)에 필요한 컴퓨팅 리소스를 줄여야 하는 필요성이 큰 실정이었다.
이에 본 발명자(들)는, 타겟 객체에 관한 기본 이미지를 획득하고, 해당 기본 이미지 및 해당 기본 이미지에 관한 스케일 팩터(scale factor)에 기초하여 생성되는 유효(valid) 신호를 이용하여 해당 기본 이미지보다 사이즈가 작은 적어도 하나의 파생 이미지를 생성함으로써 객체 검출(또는 이미지 분석)에 필요한 컴퓨팅 리소스(예를 들면, 처리해야 하는 연산량, 필요한 메모리, 칩 사이즈 등)를 줄일 수 있도록 하는 기술을 제안하는 바이다.
<선행기술문헌>
<특허문헌>
(특허문헌 1) 등록특허공보 제10-2060567호 (2019. 12. 23)
본 발명은 전술한 종래 기술의 문제점을 모두 해결하는 것을 그 목적으로 한다.
또한, 본 발명은, 타겟 객체에 관한 기본 이미지를 획득하고, 해당 기본 이미지 및 해당 기본 이미지에 관한 스케일 팩터(scale factor)에 기초하여 생성되는 유효(valid) 신호를 이용하여 해당 기본 이미지보다 사이즈가 작은 적어도 하나의 파생 이미지를 생성하는 것을 다른 목적으로 한다.
또한, 본 발명은, 객체 검출(또는 이미지 분석)에 필요한 컴퓨팅 리소스를 줄이는 것을 또 다른 목적으로 한다.
상기 목적을 달성하기 위한 본 발명의 대표적인 구성은 다음과 같다.
본 발명의 일 태양에 따르면, 타겟 객체에 관한 기본 이미지를 획득하는 단계, 및 상기 기본 이미지 및 상기 기본 이미지에 관한 스케일 팩터(scale factor)에 기초하여 생성되는 유효(valid) 신호를 이용하여 상기 기본 이미지보다 사이즈가 작은 적어도 하나의 파생 이미지를 생성하는 단계를 포함하는 방법이 제공된다.
본 발명의 다른 태양에 따르면, 타겟 객체에 관한 기본 이미지를 획득하는 기본 이미지 획득부, 및 상기 기본 이미지 및 상기 기본 이미지에 관한 스케일 팩터(scale factor)에 기초하여 생성되는 유효(valid) 신호를 이용하여 상기 기본 이미지보다 사이즈가 작은 적어도 하나의 파생 이미지를 생성하는 파생 이미지 생성부를 포함하는 시스템이 제공된다.
이 외에도, 본 발명을 구현하기 위한 다른 방법, 다른 시스템 및 상기 방법을 실행하기 위한 컴퓨터 프로그램을 기록하는 비일시성의 컴퓨터 판독 가능한 기록 매체가 더 제공된다.
본 발명에 의하면, 타겟 객체에 관한 기본 이미지를 획득하고, 해당 기본 이미지 및 해당 기본 이미지에 관한 스케일 팩터(scale factor)에 기초하여 생성되는 유효(valid) 신호를 이용하여 해당 기본 이미지보다 사이즈가 작은 적어도 하나의 파생 이미지를 생성할 수 있게 된다.
또한, 본 발명에 의하면, 객체 검출(또는 이미지 분석)에 필요한 컴퓨팅 리소스를 줄일 수 있게 된다.
도 1은 본 발명의 일 실시예에 따라 이미지 분석을 위한 파생 이미지를 생성하기 위한 전체 시스템의 개략적인 구성을 나타내는 도면이다.
도 2는 본 발명의 일 실시예에 따른 이미지 분석 시스템의 내부 구성을 상세하게 도시하는 도면이다.
도 3 및 도 4는 본 발명의 일 실시예에 따라 파생 이미지를 생성하는 과정을 예시적으로 나타내는 도면이다.
도 5는 본 발명의 일 실시예에 따라 타겟 객체를 검출하는 과정을 예시적으로 나타내는 도면이다.
<부호의 설명>
100: ISP (Image Signal Processor)
200: 이미지 분석 시스템
210: 기본 이미지 획득부
220: 파생 이미지 생성부
230: 타겟 객체 검출부
240: 통신부
250: 제어부
후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이러한 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 본 명세서에 기재되어 있는 특정 형상, 구조 및 특성은 본 발명의 정신과 범위를 벗어나지 않으면서 일 실시예로부터 다른 실시예로 변경되어 구현될 수 있다. 또한, 각각의 실시예 내의 개별 구성요소의 위치 또는 배치도 본 발명의 정신과 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 행하여지는 것이 아니며, 본 발명의 범위는 특허청구범위의 청구항들이 청구하는 범위 및 그와 균등한 모든 범위를 포괄하는 것으로 받아들여져야 한다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 구성요소를 나타낸다.
이하에서는, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 하기 위하여, 본 발명의 여러 바람직한 실시예에 관하여 첨부된 도면을 참조하여 상세히 설명하기로 한다.
한편, 컴퓨터 비전(computer vision) 분야에서 검출(detection), 인식(recognition) 및 분류(classification)라는 용어가 서로 구분되어 사용되곤 하지만, 본 명세서에서 사용되는 검출이라는 용어의 의미가 반드시 위와 같은 구분을 따르는 것은 아니며, 인식 또는 분류의 의미까지 포함할 수 있는 광의의 개념으로서 이해되어야 한다.
전체 시스템의 구성
도 1은 본 발명의 일 실시예에 따라 이미지 분석을 위한 파생 이미지를 생성하기 위한 전체 시스템의 개략적인 구성을 나타내는 도면이다.
도 1에 도시된 바와 같이, 본 발명의 일 실시예에 따른 전체 시스템은 이미지 신호 프로세서(Image Signal Processor(ISP); 100) 및 이미지 분석 시스템(200)을 포함할 수 있다.
먼저, 본 발명의 일 실시예에 따른 이미지 신호 프로세서(100)는 이미지 센서(미도시됨; 예를 들면, CCD 이미지 센서, CMOS 이미지 센서 등)에 의하여 획득되는 데이터에 대하여 감마 보정, 화이트 밸런스/노출 조절, 이미지 안정화 등의 처리를 하는 기능을 수행할 수 있다. 본 발명의 일 실시예에 따른 이미지 신호 프로세서(100)는 굳이 그 명칭에 국한될 필요 없이, 그와 사실상 동일한 기능을 수행하는 이미지 프로세서(Image Processor), 이미지 처리 엔진(Image Processing Engine), 이미지 처리 장치(Image Processing Unit; IPU) 등을 의미할 수도 있는 것으로 이해되어야 한다.
한편, 도 1에는 이미지 신호 프로세서(100)와 이미지 분석 시스템(200)이 별개의 구성인 것처럼 도시되어 있으나, 본 발명의 일 실시예에 따른 이미지 신호 프로세서(100)가 반드시 이미지 분석 시스템(200)과 별개의 구성으로서 취급되어야 하는 것은 아니고, 이미지 신호 프로세서(100)가 이미지 센서와 함께 하나의 모듈 내지 칩셋에 포함되어 이미지 분석 시스템(200)(예를 들면, CMOS 이미지 센서와 이미지 신호 프로세서(100)를 포함하는 이미지 분석 시스템(200))을 구성할 수도 있다. 그리고, 이러한 모듈 내지 칩셋은 타겟 객체를 검출(또는 이미지를 분석)하는 기능을 수행하기 위하여 스마트폰, 자율 주행차, 드론, 로봇 등의 에지 디바이스(미도시됨)에 포함될 수 있다.
다음으로, 본 발명의 일 실시예에 따른 이미지 분석 시스템(200)은 타겟 객체에 관한 기본 이미지를 획득하고, 해당 기본 이미지 및 해당 기본 이미지에 관한 스케일 팩터(scale factor)에 기초하여 생성되는 유효(valid) 신호를 이용하여 해당 기본 이미지보다 사이즈가 작은 적어도 하나의 파생 이미지를 생성하는 기능을 수행할 수 있다.
이미지 분석 시스템의 구성
이하에서는, 본 발명의 구현을 위하여 중요한 기능을 수행하는 이미지 분석 시스템(200)의 내부 구성과 각 구성요소의 기능에 대하여 살펴보기로 한다.
도 2는 본 발명의 일 실시예에 따른 이미지 분석 시스템(200)의 내부 구성을 상세하게 도시하는 도면이다.
도 2에 도시된 바와 같이, 본 발명의 일 실시예에 따른 이미지 분석 시스템(200)은, 기본 이미지 획득부(210), 파생 이미지 생성부(220), 통신부(240) 및 제어부(250)를 포함하여 구성될 수 있다. 또한, 본 발명의 일 실시예에 따른 이미지 분석 시스템(200)은, 타겟 객체 검출부(230)를 더 포함하여 구성될 수 있다. 본 발명의 일 실시예에 따르면, 기본 이미지 획득부(210), 파생 이미지 생성부(220), 타겟 객체 검출부(230), 통신부(240) 및 제어부(250)는 그 중 적어도 일부가 외부의 시스템(미도시됨)과 통신하는 프로그램 모듈일 수 있다. 이러한 프로그램 모듈은 운영 시스템, 응용 프로그램 모듈 또는 기타 프로그램 모듈의 형태로 이미지 분석 시스템(200)에 포함될 수 있고, 물리적으로는 여러 가지 공지의 기억 장치에 저장될 수 있다. 또한, 이러한 프로그램 모듈은 이미지 분석 시스템(200)과 통신 가능한 원격 기억 장치에 저장될 수도 있다. 한편, 이러한 프로그램 모듈은 본 발명에 따라 후술할 특정 업무를 수행하거나 특정 추상 데이터 유형을 실행하는 루틴, 서브루틴, 프로그램, 오브젝트, 컴포넌트, 데이터 구조 등을 포괄하지만, 이에 제한되지는 않는다.
한편, 이미지 분석 시스템(200)에 관하여 위와 같이 설명되었으나, 이러한 설명은 예시적인 것이고, 이미지 분석 시스템(200)의 구성요소 또는 기능 중 적어도 일부가 필요에 따라 서버(미도시됨) 내에서 실현되거나 외부 시스템(미도시됨) 내에 포함될 수도 있음은 당업자에게 자명하다.
먼저, 본 발명의 일 실시예에 따른 기본 이미지 획득부(210)는, 타겟 객체에 관한 기본 이미지를 획득하는 기능을 수행할 수 있다.
구체적으로, 본 발명의 일 실시예에 따르면, 타겟 객체에 관한 기본 이미지는 이미지 센서에 의하여 획득되는 타겟 객체에 관한 로(raw) 이미지 또는 해당 로 이미지에 대하여 이미지 신호 프로세서(100)에 의한 감마 보정, 화이트 밸런스/노출 조절, 이미지 안정화 등의 적절한 처리가 가해진 이미지를 의미할 수 있다. 본 발명의 일 실시예에 따른 기본 이미지 획득부(210)는, 타겟 객체에 관한 기본 이미지(즉, 타겟 객체를 촬영한 이미지)를 이미지 센서 또는 이미지 신호 프로세서(ISP; 100)로부터 획득할 수 있다.
한편, 본 발명의 일 실시예에 따르면, 타겟 객체는 본 발명의 일 실시예에 따른 타겟 객체 검출부(230)에 의한 검출의 대상이 되는 객체로서, 이미지 분석 시스템(200)이 수행하는 역할이 따라 다르게 정해질 수 있다. 예를 들어, 본 발명의 일 실시예 따르면, 이미지 분석 시스템(200)이 얼굴 인식 기반의 출입 관리 시스템에 포함되는 경우에는 타겟 객체가 사람의 얼굴일 수 있고, 이미지 분석 시스템(200)이 로봇 청소기에 포함되는 경우에는 타겟 객체가 집 안의 가구, 전자 제품과 같이 위치가 고정되어 있거나 상대적으로 크기가 큰 객체 및/또는 바닥에 버려진 쓰레기, 양말과 같이 위치가 변하거나 상대적으로 크기가 작은 객체일 수 있고, 이미지 분석 시스템(200)이 자율 주행차에 포함되는 경우에는 타겟 객체가 가로등, 바위, 건물과 같이 위치가 고정되어 있는 객체 및/또는 신호등, 교통 표지판, 차량, 보행자와 같이 위치가 변하는 객체일 수 있다. 다만, 본 발명의 일 실시예에 따른 타겟 객체는 위의 열거된 것에 한정되지 않으며, 본 발명의 목적을 달성할 수 있는 범위 내에서 다양하게 변경될 수 있다.
다음으로, 본 발명의 일 실시예에 따른 파생 이미지 생성부(220)는, 본 발명의 일 실시예에 따른 기본 이미지 획득부(210)에 의하여 획득되는 타겟 객체에 관한 기본 이미지 및 해당 기본 이미지에 관한 스케일 팩터(scale factor)에 기초하여 생성되는 유효(valid) 신호를 이용하여 해당 기본 이미지보다 사이즈가 작은 적어도 하나의 파생 이미지를 생성하는 기능을 수행할 수 있다.
구체적으로, 본 발명의 일 실시예에 따르면, 기본 이미지에 관한 스케일 팩터는 해당 기본 이미지 사이즈를 변화시킴으로써 파생 이미지를 생성함에 있어서 적용되는 일종의 배율을 의미할 수 있다. 예를 들어, 본 발명의 일 실시예에 따르면, 기본 이미지에 관한 스케일 팩터가 1/4인 경우에는 가로 사이즈와 세로 사이즈 모두가 기본 이미지의 1/4로 줄어든 파생 이미지, 즉 사이즈가 기본 이미지 사이즈의 1/16(1/4 x 1/4)인 파생 이미지가 생성되고, 기본 이미지에 관한 스케일 팩터가 1/2인 경우에는 가로 사이즈와 세로 사이즈 모두가 기본 이미지의 1/2로 줄어든 파생 이미지, 즉 사이즈가 기본 이미지 사이즈의 1/4(1/2 x 1/2)인 파생 이미지가 생성될 수 있다(기본 이미지 자체에 관한 스케일 팩터는 1이라고 볼 수도 있음). 다만, 본 발명의 일 실시예에 따른 기본 이미지에 관한 스케일 팩터가 2의 지수의 형태일 필요는 없으며, 1/3, 2/3, 4/5와 같이 본 발명의 목적을 달성할 수 있는 범위 내에서 다양하게 변경될 수 있다.
계속하여, 본 발명의 일 실시예에 따른 파생 이미지 생성부(220)는, 위와 같은 스케일 팩터에 기초하여 유효 신호가 생성되도록 할 수 있다. 보다 구체적으로, 본 발명의 일 실시예에 따르면, 유효 신호는 기본 이미지를 소정 단위로 읽음에 있어서 특정 신호가 있을 때(또는 High 값일 때)에 읽히는 단위 데이터만을 유효한 것으로 취급하는 경우에 그 특정 신호를 의미할 수 있다.
도 3은 본 발명의 일 실시예에 따라 파생 이미지를 생성하는 과정을 예시적으로 나타내는 도면이다.
도 3에서, VSYNC(Vertical Synchronize; 310) 신호는 20 x 8 사이즈의 프레임을 읽는 것을 시작할 때에 그 시작 지점을 나타내는 신호(시작 지점에서 잠시동안 High 값을 가질 수 있고, 시작 지점부터 해당 프레임의 모든 픽셀을 읽을 때까지 High 값을 유지할 수도 있음)이고, HSYNC(Horizontal Synchronize; 320) 신호는 어떤 하나의 프레임을 구성하는 픽셀들의 행(row)들 중에서 어떤 하나의 행을 읽는 것을 시작할 때에 그 시작 지점을 나타내는 신호(시작 지점부터 해당 행의 모든 픽셀을 읽을 때까지 High 값을 유지할 수 있음)이고, Valid 신호(330)는 위에서 설명한 유효 신호를 의미한다.
도 3을 참조하면, 본 발명의 일 실시예에 따른 스케일 팩터가 1/2인 경우에 생성될 수 있는 유효 신호(330)의 모습을 확인할 수 있다. 본 발명의 일 실시예에 따른 파생 이미지 생성부(220)는, 20 x 8 사이즈 프레임의 한 행(20개의 픽셀이 있음)을 읽는 동안(즉, HSYNC가 High 값을 유지하는 동안)에 10번의 유효 신호가 생성되도록 할 수 있다(301). 그리고, 본 발명의 일 실시예에 따른 파생 이미지 생성부(220)는, 해당 프레임의 그 다음 행을 읽는 동안(즉, HSYNC가 High 값을 유지하는 동안)에는 유효 신호가 생성되지 않도록 할 수 있다(302).
계속하면, 본 발명의 일 실시예에 따른 파생 이미지 생성부(220)는, 위와 같이 생성되는 유효 신호에 기초하여 기본 이미지보다 사이즈가 작은 적어도 하나의 파생 이미지를 생성할 수 있다.
도 4의 (a) 및 도 4의 (b)는 본 발명의 일 실시예에 따라 파생 이미지를 생성하는 과정을 보다 구체적으로 나타내는 도면이다.
도 4의 (a)는, 본 발명의 일 실시예에 따른 스케일 팩터가 1/2인 경우에 20 x 8 사이즈의 기본 이미지(400)로부터 가로 사이즈와 세로 사이즈 모두가 기본 이미지(400)의 1/2로 줄어든 파생 이미지, 즉 사이즈가 기본 이미지 사이즈의 1/4(1/2 x 1/2)인 파생 이미지가 생성되는 과정을 예시적으로 나타내는 도면이다. 도 4의 (a)를 참조하면, 본 발명의 일 실시예에 따른 파생 이미지 생성부(220)는, 기본 이미지(400)의 전체 픽셀들 중에서 음영으로 표시된 픽셀들(401a 등; 즉 유효(valid) 신호가 있을 때에 읽힌 픽셀들)만을 유효한 픽셀로 취급함으로써 사이즈가 기본 이미지 사이즈의 1/4인 10 x 4 사이즈의 파생 이미지(즉, 그 유효한 픽셀들로만 구성된 이미지)를 생성할 수 있다.
도 4의 (b)는, 본 발명의 일 실시예에 따른 스케일 팩터가 1/4인 경우에 20 x 8 사이즈의 기본 이미지(400)로부터 가로 사이즈와 세로 사이즈 모두가 기본 이미지(400)의 1/4로 줄어든 파생 이미지, 즉 사이즈가 기본 이미지 사이즈의 1/16(1/4 x 1/4)인 파생 이미지가 생성되는 과정을 예시적으로 나타내는 도면이다. 도 4의 (b)를 참조하면, 기본 이미지(400)의 전체 픽셀들 중에서 음영으로 표시된 픽셀들(401b 등; 즉 유효(valid) 신호가 있을 때에 읽힌 픽셀들)만이 유효한 픽셀로 취급됨으로써 사이즈가 기본 이미지 사이즈의 1/16인 5 x 2 사이즈의 파생 이미지(즉, 그 유효한 픽셀들로만 구성된 이미지)가 생성될 수 있다.
한편, 본 발명의 일 실시예에 따른 파생 이미지 생성부(220)는, 유효 신호가 이미지 신호 프로세서(ISP; 100)에서 생성되도록 할 수 있다. 상술한 바와 같이, 객체 검출 관련 기술에서는 대개 검출 성능 향상 등 여러 가지 목적으로 촬영 이미지의 사이즈를 줄이는 서브 샘플링 내지 다운 스케일링이 수행되는데, 이러한 기능을 수행하기 위한 로직 내지 소프트웨어가(또는 그에 더하여 메모리가) 별도로 필요한 것이 일반적이다. 그러나, 본 발명의 일 실시예에 따른 파생 이미지 생성부(220)는, 기본 이미지에 관한 스케일 팩터(scale factor)에 기초하여 생성되는 유효 신호가 이미지 신호 프로세서(ISP; 100)에서 하드웨어적으로 생성되도록 하고, 이렇게 생성된 유효 신호를 이용하여 해당 기본 이미지보다 사이즈가 작은 적어도 하나의 파생 이미지를 생성함으로써, 위와 같은 별도의 로직 내지 소프트웨어(또는 그에 더하여 별도의 메모리) 없이 간단하면서도 비용 효율적인 방법으로 서브 샘플링 내지 다운 스케일링이 수행된 것과 동일한 효과가 발생되도록 할 수 있다. 그리고, 이를 통해 객체 검출에 필요한 컴퓨팅 리소스(예를 들면, 처리해야 하는 연산량, 필요한 메모리, 칩 사이즈 등)를 줄일 수 있다.
한편, 본 발명의 일 실시예에 따른 파생 이미지 생성부(220)는, 이미지 신호 프로세서(ISP; 100)를 포함하는 이미지 분석 시스템(200)이 수행하는 역할에 기초하여 유효 신호가 적응적으로 생성되도록 할 수 있다.
구체적으로, 본 발명의 일 실시예에 따르면, 이미지 분석 시스템(200)은 어떤 디바이스 내지 시스템에 포함되는지에 따라, 또는 그에 더하거나 대신하여 상황에 따라 다양한 역할을 수행할 수 있다. 그리고, 본 발명의 일 실시예에 따른 파생 이미지 생성부(220)는, 이러한 역할에 기초하여 기본 이미지에 관한 스케일 팩터를 적응적으로 결정하고, 그 결정되는 스케일 팩터에 기초하여 유효 신호가 적응적으로 생성되도록 할 수 있다.
예를 들면, 본 발명의 일 실시예에 따른 이미지 분석 시스템(200)이 로봇 청소기에 포함되는 경우를 가정할 수 있다. 이러한 경우에, 로봇 청소기가 맵을 생성/업데이트하거나 자신의 위치를 파악하기 위하여 가구나 전자 제품과 같이 위치가 고정되어 있거나 상대적으로 크기가 큰 객체들을 검출하는 역할을 수행할 때에는 적은 수의 파생 이미지만 이용해서도 신뢰도 높은 검출 결과를 얻을 수 있으므로, 본 발명의 일 실시예에 따른 파생 이미지 생성부(220)는, 1/4인 스케일 팩터에 기초하여 생성되는 유효 신호 및 1/2인 스케일 팩터에 기초하여 생성되는 유효 신호를 이용함으로써, 각각 기본 이미지 사이즈의 1/16 사이즈인 파생 이미지 및 기본 이미지 사이즈의 1/4 사이즈인 파생 이미지만 생성할 수 있다. 그리고, 로봇 청소기가 청소를 위하여 바닥에 버려진 쓰레기, 양말과 같이 위치가 변하거나 상대적으로 크기가 작은 객체를 검출하는 역할을 수행할 때에는 다양한 사이즈의 파생 이미지를 이용해야 신뢰도 높은 검출 결과를 얻을 수 있으므로, 본 발명의 일 실시예에 따른 파생 이미지 생성부(220)는, 1/16, 1/8, 1/4 및 1/2인 스케일 팩터에 기초하여 생성되는 유효 신호를 이용함으로써, 각각 기본 이미지 사이즈의 1/256, 1/64, 1/16 및 1/4 사이즈인 파생 이미지를 생성할 수 있다.
다음으로, 본 발명의 일 실시예에 따른 타겟 객체 검출부(230)는, 타겟 객체에 관한 기본 이미지 및 기본 이미지보다 사이즈가 작은 적어도 하나의 파생 이미지를 인공 신경망 모델에 입력함으로써 위의 기본 이미지 및 적어도 하나의 파생 이미지 중 적어도 하나로부터 타겟 객체를 검출하는 기능을 수행할 수 있다.
구체적으로, 본 발명의 일 실시예에 따르면, 위의 기본 이미지 및 적어도 하나의 파생 이미지가 입력되는 인공 신경망 모델은 CNN 기반의 모델일 수 있다. 예를 들면, 본 발명의 일 실시예에 따른 인공 신경망 모델은 MTCNN(Multi-Task Cascaded Convolutional Neural Network) 기반의 모델일 수 있으나, 이에 제한되는 것은 아니고 본 발명의 목적을 달성할 수 있는 범위 내에서 다양하게 변경될 수 있다.
그리고, 본 발명의 일 실시예에 따른 인공 신경망 모델에서는 풀링(pooling)이 수행되지 않을 수 있다. 즉, CNN 기반의 인공 신경망 모델에는 일반적으로 풀링 레이어가 존재하고, 여기에서 풀링(예를 들면, 최대 풀링(max pooling), 평균 풀링(average pooling) 등)을 통해 서브 샘플링이 수행되는 것이 일반적인데, 본 발명의 일 실시예에 따르면, 상술한 바와 같이, 기본 이미지에 관한 스케일 팩터에 기초하여 생성되는 유효 신호를 이용하여 해당 기본 이미지보다 사이즈가 작은 적어도 하나의 파생 이미지를 생성함으로써 이러한 풀링 단계를 생략할 수 있게 된다.
한편, 본 발명의 일 실시예에 따른 타겟 객체 검출부(230)는, 적어도 하나의 파생 이미지의 사이즈가 작은 순으로 인공 신경망 모델에 입력하고, 특정 사이즈의 파생 이미지로부터 타겟 객체가 검출된 결과가 그 다음 사이즈의 파생 이미지의 입력과 연관되도록 할 수 있다. 그리고, 본 발명의 일 실시예에 따른 타겟 객체 검출부(230)는, 가장 큰 사이즈의 파생 이미지가 인공 신경망 모델에 입력된 다음에 기본 이미지를 위의 인공 신경망 모델에 입력하고, 그 결과로서 타겟 객체를 최종적으로 검출할 수 있다. 여기서, 본 발명의 일 실시예에 따른 타겟 객체 검출부(230)는, 파생 이미지들의 경우와 유사하게, 가장 큰 사이즈의 파생 이미지로부터 타겟 객체가 검출된 결과는 기본 이미지(즉, 그 다음 사이즈의 이미지)의 입력과 연관되도록 할 수 있다.
도 5는 본 발명의 일 실시예에 따라 타겟 객체를 검출하는 과정을 예시적으로 나타내는 도면이다. 여기서는 타겟 객체가 얼굴인 경우를 가정하여 설명하기로 한다.
도 5를 참조하면, 본 발명의 일 실시예에 따른 기본 이미지 획득부(210)는, CMOS 이미지 센서로부터 타겟 객체에 관한 기본 이미지를 획득할 수 있다(510). 그리고, 본 발명의 일 실시예에 따른 파생 이미지 생성부(220)는, 기본 이미지에 관한 스케일 팩터에 기초하여 생성되는 유효 신호를 이용하여 해당 기본 이미지보다 사이즈가 작은 적어도 하나의 파생 이미지를 생성할 수 있다(520). 도 5에서는 스케일 팩터가 1/4인 경우의 파생 이미지(즉, 기본 이미지 사이즈의 1/16 사이즈인 파생 이미지) 및 스케일 팩터가 1/2인 경우의 파생 이미지(즉, 기본 이미지 사이즈의 1/4 사이즈인 파생 이미지)가 생성된다(530 및 540).
계속하여 도 5를 참조하면, 본 발명의 일 실시예에 따른 타겟 객체 검출부(230)는, 파생 이미지의 사이즈가 작은 순으로 인공 신경망 모델에 입력하고, 특정 사이즈의 파생 이미지로부터 타겟 객체가 검출된 결과가 그 다음 사이즈의 파생 이미지의 입력과 연관되도록 할 수 있다.
보다 구체적으로, 본 발명의 일 실시예에 따른 타겟 객체 검출부(230)는, 가장 사이즈가 작은 파생 이미지를 인공 신경망에 입력하고, 12x12 커널(설명의 편의를 위해 RGB와 같은 채널 수 내지 커널의 깊이는 표시하지 않기로 함)을 사용하여 얼굴(보다 정확하게는 얼굴로 추정되는 후보 얼굴)을 검출하고 그 좌표 정보를 인식할 수 있다(530). 그리고, 발명의 일 실시예에 따른 타겟 객체 검출부(230)는, 그 다음 사이즈의 파생 이미지를 인공 신경망에 입력하고 24x24 커널을 사용하여 얼굴을 검출하되, 앞 단계의 검출 결과를 이용하여 타겟 객체를 보다 정확하게 검출(또는, 앞 단계에서 검출된 후보 얼굴의 좌표 내지 영역에 기초하여 앞 단계에서 검출된 후보 얼굴 중에서 신뢰도가 더 높은 얼굴들을 도출)할 수 있다(540). 이를 위하여 앞 단계의 검출 결과로서 도출된 후보 얼굴들의 좌표 내지 영역이 현재 단계의 파생 이미지에 대응되도록 변환할 수 있다. 다시 말하면, 앞 단계에서는 스케일 팩터가 1/4인 경우에 생성되는 파생 이미지를 바탕으로 후보 얼굴들을 검출하였기 때문에, 해당 후보 얼굴들의 좌표 내지 영역이 스케일 팩터가 1/2인 경우에 생성되는 파생 이미지에 대응되도록 하기 위해서 좌표 변환을 수행할 수 있다.
마지막으로, 본 발명의 일 실시예에 따른 타겟 객체 검출부(230)는, 기본 이미지를 인공 신경망에 입력하고 48x48 커널을 사용하여 얼굴을 검출하되, 앞단계의 검출 결과를 이용하여 타겟 객체를 최종적으로 검출(또는, 앞 단계에서 검출된 후보 얼굴들 중에서 신뢰도가 가장 높은 얼굴을 도출)할 수 있다(550). 그리고, 본 발명의 일 실시예에 따른 타겟 객체 검출부(230)는, 이렇게 최종적인 검출 결과를 기본 이미지상에 출력(예를 들면, bounding box로 표시)할 수 있다(560).
다음으로, 본 발명의 일 실시예에 따른 통신부(240)는 기본 이미지 획득부(210), 파생 이미지 생성부(220) 및 타겟 객체 검출부(230)로부터의/로의 데이터 송수신이 가능하도록 하는 기능을 수행할 수 있다.
마지막으로, 본 발명의 일 실시예에 따른 제어부(250)는 기본 이미지 획득부(210), 파생 이미지 생성부(220), 타겟 객체 검출부(230) 및 통신부(240) 간의 데이터의 흐름을 제어하는 기능을 수행할 수 있다. 즉, 본 발명의 일 실시예에 따른 제어부(250)는 이미지 분석 시스템(200)의 외부로부터의/로의 데이터 흐름 또는 이미지 분석 시스템(200)의 각 구성요소 간의 데이터 흐름을 제어함으로써, 기본 이미지 획득부(210), 파생 이미지 생성부(220), 타겟 객체 검출부(230) 및 통신부(240)에서 각각 고유 기능을 수행하도록 제어할 수 있다.
이상 설명된 본 발명에 따른 실시예는 다양한 컴퓨터 구성요소를 통하여 실행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것이거나 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수 있다. 컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등과 같은, 프로그램 명령어를 저장하고 실행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령어의 예에는, 컴파일러에 의하여 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용하여 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위하여 하나 이상의 소프트웨어 모듈로 변경될 수 있으며, 그 역도 마찬가지이다.
이상에서 본 발명이 구체적인 구성요소 등과 같은 특정 사항과 한정된 실시예 및 도면에 의하여 설명되었으나, 이는 본 발명의 보다 전반적인 이해를 돕기 위하여 제공된 것일 뿐, 본 발명이 상기 실시예에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정과 변경을 꾀할 수 있다.
따라서, 본 발명의 사상은 상기 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 또는 이로부터 등가적으로 변경된 모든 범위는 본 발명의 사상의 범주에 속한다고 할 것이다.

Claims (13)

  1. 이미지 분석을 위한 파생 이미지를 생성하기 위한 방법으로서,
    타겟 객체에 관한 기본 이미지를 획득하는 단계, 및
    상기 기본 이미지 및 상기 기본 이미지에 관한 스케일 팩터(scale factor)에 기초하여 생성되는 유효(valid) 신호를 이용하여 상기 기본 이미지보다 사이즈가 작은 적어도 하나의 파생 이미지를 생성하는 단계를 포함하는
    방법.
  2. 제1항에 있어서,
    상기 생성 단계에서, 상기 유효 신호는 이미지 신호 프로세서(ISP; Image Signal Processor)에서 생성되는
    방법.
  3. 제2항에 있어서,
    상기 생성 단계에서, 상기 유효 신호는 상기 이미지 신호 프로세서를 포함하는 이미지 분석 시스템이 수행하는 역할에 기초하여 적응적으로 생성되는
    방법.
  4. 제1항에 있어서,
    상기 기본 이미지 및 상기 적어도 하나의 파생 이미지를 인공 신경망 모델에 입력함으로써 상기 기본 이미지 및 상기 적어도 하나의 파생 이미지 중 적어도 하나로부터 상기 타겟 객체를 검출하는 단계를 더 포함하는
    방법.
  5. 제4항에 있어서,
    상기 인공 신경망 모델에서는 풀링(pooling)이 수행되지 않는
    방법.
  6. 제4항에 있어서,
    상기 검출 단계에서, 상기 적어도 하나의 파생 이미지의 사이즈가 작은 순으로 상기 인공 신경망 모델에 입력하고, 특정 사이즈의 파생 이미지로부터 상기 타겟 객체가 검출된 결과가 그 다음 사이즈의 파생 이미지의 입력과 연관되는
    방법.
  7. 제1항에 따른 방법을 실행하기 위한 컴퓨터 프로그램을 기록하는 비일시성의 컴퓨터 판독 가능 기록 매체.
  8. 이미지 분석을 위한 파생 이미지를 생성하기 위한 시스템으로서,
    타겟 객체에 관한 기본 이미지를 획득하는 기본 이미지 획득부, 및
    상기 기본 이미지 및 상기 기본 이미지에 관한 스케일 팩터(scale factor)에 기초하여 생성되는 유효(valid) 신호를 이용하여 상기 기본 이미지보다 사이즈가 작은 적어도 하나의 파생 이미지를 생성하는 파생 이미지 생성부를 포함하는
    시스템.
  9. 제8항에 있어서,
    상기 파생 이미지 생성부는, 상기 유효 신호가 이미지 신호 프로세서(ISP; Image Signal Processor)에서 생성되도록 하는
    시스템.
  10. 제9항에 있어서,
    상기 파생 이미지 생성부는, 상기 이미지 신호 프로세서를 포함하는 이미지 분석 시스템이 수행하는 역할에 기초하여 상기 유효 신호가 적응적으로 생성되도록 하는
    시스템.
  11. 제8항에 있어서,
    상기 기본 이미지 및 상기 적어도 하나의 파생 이미지를 인공 신경망 모델에 입력함으로써 상기 기본 이미지 및 상기 적어도 하나의 파생 이미지 중 적어도 하나로부터 상기 타겟 객체를 검출하는 타겟 객체 검출부를 더 포함하는
    시스템.
  12. 제11항에 있어서,
    상기 인공 신경망 모델에서는 풀링(pooling)이 수행되지 않는
    시스템.
  13. 제11항에 있어서,
    상기 타겟 객체 검출부는, 상기 적어도 하나의 파생 이미지의 사이즈가 작은 순으로 상기 인공 신경망 모델에 입력하고, 특정 사이즈의 파생 이미지로부터 상기 타겟 객체가 검출된 결과가 그 다음 사이즈의 파생 이미지의 입력과 연관되도록 하는
    시스템.
PCT/KR2023/007332 2022-06-16 2023-05-26 이미지 분석을 위한 파생 이미지를 생성하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능한 기록 매체 WO2023243904A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020220073665A KR20230172914A (ko) 2022-06-16 2022-06-16 이미지 분석을 위한 파생 이미지를 생성하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능한 기록 매체
KR10-2022-0073665 2022-06-16

Publications (1)

Publication Number Publication Date
WO2023243904A1 true WO2023243904A1 (ko) 2023-12-21

Family

ID=89191579

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2023/007332 WO2023243904A1 (ko) 2022-06-16 2023-05-26 이미지 분석을 위한 파생 이미지를 생성하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능한 기록 매체

Country Status (2)

Country Link
KR (1) KR20230172914A (ko)
WO (1) WO2023243904A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060016982A (ko) * 2004-08-19 2006-02-23 엠텍비젼 주식회사 이미지 데이터를 처리하는 방법 및 장치
KR20170118463A (ko) * 2016-04-15 2017-10-25 삼성전자주식회사 인코딩 장치, 디코딩 장치 및 이의 제어 방법
KR20200044667A (ko) * 2018-10-19 2020-04-29 삼성전자주식회사 Ai 부호화 장치 및 그 동작방법, 및 ai 복호화 장치 및 그 동작방법
KR20200044668A (ko) * 2018-10-19 2020-04-29 삼성전자주식회사 Ai 부호화 장치 및 그 동작방법, 및 ai 복호화 장치 및 그 동작방법
KR20210090159A (ko) * 2019-03-25 2021-07-19 텔레다인 디지털 이미징, 아이엔씨. 초해상도 이미지를 생성하기 위한 방법 및 관련 디바이스

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102060567B1 (ko) 2019-05-13 2019-12-30 호서대학교 산학협력단 심층신경망을 이용한 선박 주변 객체 인식 방법 및 시스템

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060016982A (ko) * 2004-08-19 2006-02-23 엠텍비젼 주식회사 이미지 데이터를 처리하는 방법 및 장치
KR20170118463A (ko) * 2016-04-15 2017-10-25 삼성전자주식회사 인코딩 장치, 디코딩 장치 및 이의 제어 방법
KR20200044667A (ko) * 2018-10-19 2020-04-29 삼성전자주식회사 Ai 부호화 장치 및 그 동작방법, 및 ai 복호화 장치 및 그 동작방법
KR20200044668A (ko) * 2018-10-19 2020-04-29 삼성전자주식회사 Ai 부호화 장치 및 그 동작방법, 및 ai 복호화 장치 및 그 동작방법
KR20210090159A (ko) * 2019-03-25 2021-07-19 텔레다인 디지털 이미징, 아이엔씨. 초해상도 이미지를 생성하기 위한 방법 및 관련 디바이스

Also Published As

Publication number Publication date
KR20230172914A (ko) 2023-12-26

Similar Documents

Publication Publication Date Title
WO2019132589A1 (ko) 다중 객체 검출을 위한 영상 처리 장치 및 방법
WO2014069822A1 (en) Apparatus and method for face recognition
WO2022001961A1 (zh) 一种高空抛物动目标检测方法、检测设备和检测系统
WO2011016649A2 (ko) 얼굴변화 검출 시스템 및 얼굴변화 감지에 따른 지능형 시스템
WO2015182904A1 (ko) 관심객체 검출을 위한 관심영역 학습장치 및 방법
WO2021101045A1 (en) Electronic apparatus and method for controlling thereof
CN110032932B (zh) 一种基于视频处理和决策树设定阈值的人体姿态识别方法
WO2021045599A1 (ko) 비디오 영상에 보케 효과를 적용하는 방법 및 기록매체
EP3756160A1 (en) System and method for fast object detection
CN112487981A (zh) 基于双路分割的ma-yolo动态手势快速识别方法
WO2019088333A1 (ko) 깊이 맵 정보 기반의 인체 행위 인지 방법 및 그 장치
WO2011078596A2 (ko) 상황에 따라 적응적으로 이미지 매칭을 수행하기 위한 방법, 시스템, 및 컴퓨터 판독 가능한 기록 매체
WO2023243904A1 (ko) 이미지 분석을 위한 파생 이미지를 생성하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능한 기록 매체
CN112069979B (zh) 一种实时动作识别人机交互系统
WO2024034924A1 (ko) 스테레오 카메라 기반의 시선 추적을 이용한 포인팅 방법 및 시스템
CN111104921A (zh) 一种基于Faster rcnn的多模态行人检测模型及方法
WO2023158205A1 (ko) Ai 기반 객체인식을 통한 감시 카메라 영상의 노이즈 제거
WO2023096133A1 (ko) 경량화된 자세 추정 모델 제공 장치 및 방법
CN109389367B (zh) 人员考勤方法、装置及存储介质
WO2017086522A1 (ko) 배경스크린이 필요 없는 크로마키 영상 합성 방법
WO2023080667A1 (ko) Ai 기반 객체인식을 통한 감시카메라 wdr 영상 처리
WO2023038369A1 (en) Semantic three-dimensional (3d) building augmentation
WO2023149603A1 (ko) 다수의 카메라를 이용한 열화상 감시 시스템
WO2016104842A1 (ko) 카메라의 왜곡을 고려한 물체 인식 시스템 및 방법
WO2022191424A1 (ko) 전자 장치 및 그 제어 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23824125

Country of ref document: EP

Kind code of ref document: A1