WO2022114252A1 - 복잡도 기반 특정 영역 연산 생략 방식을 이용한 딥러닝 기반 범시적 영역 분할 연산 가속처리 방법 - Google Patents

복잡도 기반 특정 영역 연산 생략 방식을 이용한 딥러닝 기반 범시적 영역 분할 연산 가속처리 방법 Download PDF

Info

Publication number
WO2022114252A1
WO2022114252A1 PCT/KR2020/016768 KR2020016768W WO2022114252A1 WO 2022114252 A1 WO2022114252 A1 WO 2022114252A1 KR 2020016768 W KR2020016768 W KR 2020016768W WO 2022114252 A1 WO2022114252 A1 WO 2022114252A1
Authority
WO
WIPO (PCT)
Prior art keywords
complexity
processing unit
input image
segmentation
image
Prior art date
Application number
PCT/KR2020/016768
Other languages
English (en)
French (fr)
Inventor
민경원
손행선
이선영
김윤정
심영보
간호약간저릭
Original Assignee
한국전자기술연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자기술연구원 filed Critical 한국전자기술연구원
Priority to US17/623,067 priority Critical patent/US20230252755A1/en
Publication of WO2022114252A1 publication Critical patent/WO2022114252A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/40Image enhancement or restoration by the use of histogram techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration by the use of more than one image, e.g. averaging, subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Definitions

  • the present invention relates to image processing technology, and more particularly, to an RPN (Region Proposal Network) acceleration method of image complexity-based instance segmentation for panoptic segmentation (universal region segmentation) will be.
  • RPN Registered Proposal Network
  • Panoptic segmentation is a technique to separate and label various objects from the scene. Panoptic segmentation is a method of artificial intelligence processing, so it requires a lot of computation.
  • the present invention has been devised to solve the above problems, and an object of the present invention is to use the RPN Skip method in processing Panoptic Segmentation, which is a method of artificial intelligence processing, to facilitate Panoptic even in embedded systems with limited resources. It is intended to provide a method for performing segmentation.
  • another object of the present invention is to provide a method and apparatus for reducing the computational load by calculating the image complexity in order to accelerate the RPN of the panoptic segmentation and SKIP the RPN in an unnecessary area.
  • an image segmentation system includes: a network for extracting features from an input image; a first processing unit for extracting dynamic objects by an instance segmentation method using the features extracted from the network; a calculation unit that controls the first processing unit to SKIP some of the features extracted from the network based on the complexity of the input image; a second processing unit that extracts static objects using a semantic segmentation method using the features extracted from the network; and a fusion unit that fuses the extraction result of the first processing unit and the extraction result of the second processing unit.
  • the calculator may calculate the complexity of the input image by using the histogram of the input image and the extraction result of the second processor.
  • the histogram-based complexity of the input image is calculated through the following equation,
  • Image may be an input image
  • HistogramComplexity may be a histogram-based complexity of the input image
  • var(H) may be a variance of H
  • M may be a histogram total bin value.
  • SegComplexity is the complexity based on the extraction result of the second processing unit
  • Xthing is an area extracted as thing (dynamic object) by the second processing unit
  • Xstuff is an area extracted as stuff (static object) by the second processing unit.
  • the calculator calculates the complexity of the input image through the following equation,
  • ImgComplexity a ⁇ HistogramComplexity+b ⁇ SegComplexity
  • ImgComplexity is the complexity of the input image, and a and b may be weighting coefficient parameters.
  • the calculation unit may control not to perform region SKIP, and if the complexity corresponds to a lower stage than the first stage, it may control to perform region SKIP on the region not corresponding to the Xthing region. have.
  • the calculator controls to scale and process the Xthing region when the complexity corresponds to a second stage lower than the first stage, and controls to process the Xthing region without scaling when the complexity corresponds to a third stage lower than the second stage can do.
  • an image segmentation method includes: a first processing step of extracting dynamic objects by an instance segmentation method using features extracted from a network for extracting features from an input image; controlling a portion of the features extracted from the network in the first processing step to be skipped based on the complexity of the input image; a second processing step of extracting static objects by a semantic segmentation method using the features extracted from the network; and a fusion unit that fuses the extraction result of the first processing step and the extraction result of the second processing step.
  • the RPN-Skip method presented in the embodiments of the present invention is not only a Panoptic Segmentation processing method that combines Instant Segmentation and Semantic Segmentation, but also a Fusion algorithm that combines and processes Bounding Box-based Object Detection and Semantic Segmentation. It can also be easily deformed and applied in the same manner.
  • FIG. 1 is a block diagram of a Panoptic Segmentation accelerated processing system according to an embodiment of the present invention
  • 2 is a 2-Stage Mask-RCNN-based method in instance segmentation
  • FIG. 6 is a hardware configuration diagram of a Panoptic Segmentation accelerated processing system according to an embodiment of the present invention.
  • FIG. 1 is a block diagram of a Panoptic Segmentation accelerated processing system according to an embodiment of the present invention.
  • Panoptic segmentation divides the scene into Thing or Stuff and labels all pixels.
  • the Thing class mainly means dynamic objects (classes) such as cars and people, and the Stuff class is other static objects (semantic objects such as sky, roads, buildings, etc.). one class).
  • Panoptic segmentation is a FPN Network (10), an Instant head (20) functioning as an Instant segmentation processing unit, a Semantic head (30) functioning as a Semantic segmentation processing unit, and a Complexity Block (40) functioning as a complexity calculator. ) and a Panoptic Fusion 50 that functions as a Panoptic fusion.
  • Instant head 20 is a configuration for extracting a thing class, and extracts the processing result in the form of mask logists, class, and bounding box using the instance segmentation method.
  • the semantic head 30 is a configuration for extracting the stuff class, and semantic logists are extracted using the semantic segmentation method.
  • the Panoptic Fusion 50 extracts the Panoptic segmentation result by fusion of the instance segmentation result of the Instant head 20 and the semantic segmentation result of the semantic head 30 .
  • a Feature Pyramid Network (FPN Network) 10 is used as a backbone network for extracting features from an input image, and the FPN Network 10 has the advantage that it can be used simultaneously for semantic segmentation and instance segmentation.
  • the semantic segmentation method can be extracted through convolution operation and up-sampling in FPN, and the instance segmentation uses a 2-stage instance segmentation method as shown in FIG. 2 .
  • FIG. 2 is a diagram provided to explain a method based on 2-Stage Mask-RCNN in instance segmentation.
  • the operation method first selects a candidate ROI from the RPN (Region Proposal Network) network and selects an ROI feature through ROI pooling based on the selected ROI. Next, the object class, bounding box, and mask logists are extracted based on the selected ROI feature.
  • RPN Registered Proposal Network
  • each center point is selected through a sliding window for input features as shown in FIG. 3, and k anchor boxes are made for each center point to select a final ROI candidate.
  • the final best class, best Bbox, and best masklogists are extracted through NMS (Non Maximum Suppression) method.
  • a center point is selected through a sliding window, and a k anchor box is created based on the corresponding center point.
  • Complexity Block (40) calculates Image Complexity using the input image and the result of Semantic Segmentation, and the Instance Head (20) performs Center point SKIP in RPN based on the calculated Image Complexity to accelerate computational processing. .
  • the Center Point Skip method for performing accelerated processing of panoptic segmentation is more specifically, as shown in Fig. 4, composed of three steps. First, the complexity measure and the SKIP area are determined using the input image and the semantic logist that is the result of semantic segmentation. is performed in the Complexity Block 40, and finally, Center Point SKIP is determined using the CPS information and Xthing information that are the outputs of the SKIP area determination block.
  • the operation processing process of each functional block in FIG. 4 is as follows.
  • the Complexity Measure block calculates the complexity of the image, and the complexity of the image is calculated based on the histogram information of the input image and the feature information (semantic logist) output from the semantic segmentation.
  • the histogram of the input image for performing panoptic segmentation is calculated as shown in Equation (1), and the complexity is calculated by calculating the histogram variance.
  • M means the histogram total bin value.
  • the semantic logist which is the feature information derived from the processing result of semantic segmentation, is separated into (Xthing) indicating the area corresponding to the thing for the entire input image and the remaining part, stuff (Xstuff), Measure the SegComplexity of the semantic logist with the following ratio
  • ImgComplexity a ⁇ HistogramComplexity+b ⁇ SegComplexity (3)
  • the Skip area determination block determines the level of Image Complexity based on Equation (3) and finally determines the Skip method.
  • the Skip complexity area is defined as three (low, middle, high) steps as follows, and the Skip processing method is determined according to each step. may be added or decreased according to the Skip strategy.
  • the ImgComplexity value calculated in the complexity measure step is measured in which area of the defined skip complexity step is included, and based on this, the RPN processing is performed as follows. decide
  • the RPN SKIP method is performed while scaling the Xthing area.
  • CPS 1 (RPN center point SKIP on) is output, and Xthing area is scaled as shown in the following equation, and RPN processing is performed on the scaled area.
  • CPS 1 (RPN center point SKIP on) is output and RPN processing is performed for the entire area without scaling for the Xthing area.
  • Center point skip for Instant Segmentation processing according to the complexity calculation result does not proceed with center point SKIP if Complexity HIGH as follows, but performs Instant Segmentation operation processing for all Sematic Segmentation Center points, and Complexity LOW or In case of MIDDLE, center point SKIP is performed for the part that does not correspond to the Xthing area.
  • Image complexity is calculated in the manner described in FIG. 4 to determine the center point SKIP application method.
  • step 110 After creating centerPoint in all areas, go to step 110.
  • step 102 Otherwise, go to step 102 and create the next centerPoint through sliding_window and increase i.
  • instance segmentation which is one of the elements constituting panoptic segmentation
  • RPN Routing Proposal Network
  • the complexity for the panoptic segmentation processing is reduced through reduction of the computational load, so that the Panoptic Segmentation method can be processed more easily in the embedded environment.
  • the proposed RPN-Skip method is not only a Panoptic Segmentation processing method that combines Instant Segmentation and Semantic Segmentation described above, but also a Fusion algorithm that combines and processes Bounding Box-based Object Detection and Semantic Segmentation in the same way. It can be easily modified and applied.
  • FIG. 6 is a hardware configuration diagram of a Panoptic Segmentation accelerated processing system according to an embodiment of the present invention.
  • the hardware of the Panoptic Segmentation acceleration processing system is configured to include an input unit 210 , a processor 220 , an output unit 230 and a storage unit 240 , as shown.
  • the input unit 210 receives an image as a target for panoptic segmentation and applies it to the processor 220 .
  • the processor 220 performs the above-described Panoptic Segmentation process.
  • the output unit 230 outputs the processing result by the processor 220 , and the storage unit 240 provides a storage space necessary for the processor 220 to function and operate.
  • the technical idea of the present invention can be applied to a computer-readable recording medium containing a computer program for performing the functions of the apparatus and method according to the present embodiment.
  • the technical ideas according to various embodiments of the present invention may be implemented in the form of computer-readable codes recorded on a computer-readable recording medium.
  • the computer-readable recording medium may be any data storage device readable by the computer and capable of storing data.
  • the computer-readable recording medium may be a ROM, RAM, CD-ROM, magnetic tape, floppy disk, optical disk, hard disk drive, or the like.
  • the computer-readable code or program stored in the computer-readable recording medium may be transmitted through a network connected between computers.

Abstract

복잡도 기반 특정 영역 연산 생략 방식을 이용한 딥러닝 기반 Panoptic segmentation 연산 가속처리 기술이 제공된다. 본 발명의 실시예에 따른 시스템은, 추출된 특징을 이용하여 Instance segmentation 방법으로 동적 객체들을 추출하는 제1 처리부< 입력 영상의 복잡도를 기초로 제1 처리부가 네트워크에서 추출된 특징 중 일부 영역을 SKIP 하도록 제어하는 산출부, 네트워크에서 추출된 특징을 이용하여, Semantic segmentation 방법으로 정적 객체들을 추출하는 제2 처리부, 제1 처리부의 추출 결과와 제2 처리부의 추출 결과를 융합하는 융합부를 포함한다. 이에 의해, 연산 부하의 감경을 통해 Panoptic segmentation 처리를 위한 Complexity를 줄임으로써 Embedded 환경에서도 보다 용이하게 상기 Panoptic Segmentation 방법을 처리할 수 있게 된다.

Description

복잡도 기반 특정 영역 연산 생략 방식을 이용한 딥러닝 기반 범시적 영역 분할 연산 가속처리 방법
본 발명은 영상 처리 기술에 관한 것으로, 더욱 상세하게는 Panoptic segmentation(범시적 영역 분할)을 위한 영상 복잡도(Image Complexity) 기반 사례별 영역 분할(Instance segmentation)의 RPN(Region Proposal Network) 가속화 방법에 관한 것이다.
Panoptic segmentation은 Scene으로부터 다양한 객체들을 분리하여 레이블링 하는 기법이다. Panoptic segmentation은 인공지능 처리의 한 방법이어서, 연산량이 많은 편이다.
따라서, 제한된 리소스를 가지는 임베디드 시스템에서는 Panoptic Segmentation을 수행하기 어렵다는 문제가 있는 바, 이를 해결하기 위한 방안이 필요하다.
본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은, 인공지능 처리의 한 방법인 Panoptic Segmentation을 처리함에 있어 RPN Skip 방법을 이용함으로써 제한된 리소스를 가지는 임베디드 시스템에서도 용이하게 Panoptic Segmentation을 수행할 수 있는 방법을 제공함에 있다.
또한, 본 발명의 다른 목적은, Panoptic segmentation의 RPN을 가속화하기 위해서 Image Complexity를 계산하여 불필요한 영역에서 RPN을 SKIP하여 연산 부하를 감경하는 방법 및 장치를 제공함에 있다.
상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른, 영상 세그먼테이션 시스템은, 입력 영상에서 특징을 추출하는 네트워크; 네트워크에서 추출된 특징을 이용하여, Instance segmentation 방법으로 동적 객체들을 추출하는 제1 처리부; 입력 영상의 복잡도를 기초로, 제1 처리부가 네트워크에서 추출된 특징 중 일부 영역을 SKIP 하도록 제어하는 산출부; 네트워크에서 추출된 특징을 이용하여, Semantic segmentation 방법으로 정적 객체들을 추출하는 제2 처리부; 제1 처리부의 추출 결과와 제2 처리부의 추출 결과를 융합하는 융합부;를 포함한다.
산출부는, 입력 영상의 히스토그램과 제2 처리부의 추출 결과를 이용하여, 입력 영상의 복잡도를 산출할 수 있다.
입력 영상의 히스토그램 기반의 복잡도는 다음의 수식을 통해 산출하며,
H=Histogram(Image)
HistogramComplexity=(var(H))/M
Image는 입력 영상이고, HistogramComplexity는 입력 영상의 히스토그램 기반의 복잡도이며, var(H)는 H의 분산이고, M은 M은 histogram total bin 값일 수 있다.
제2 처리부의 추출 결과 기반의 복잡도는 다음의 수식을 통해 산출하며,
SegComplexity=Xthing/(Xstuff+Xthing)
SegComplexity는 제2 처리부의 추출 결과 기반의 복잡도이고, Xthing은 제2 처리부에 의해 thing(동적 객체)으로 추출된 영역이고, Xstuff는 제2 처리부에 의해 stuff(정적 객체)으로 추출된 영역일 수 있다.
산출부는, 다음의 수식을 통해 입력 영상의 복잡도를 산출하며,
ImgComplexity=a×HistogramComplexity+ b×SegComplexity
ImgComplexity는 입력 영상의 복잡도이며, a와 b는 weighting coefficient parameters일 수 있다.
산출부는, 복잡도가 제1 단계에 해당하면, 영역 SKIP을 수행하지 않도록 제어하고, 복잡도가 제1 단계 보다 낮은 단계에 해당하면, Xthing 영역에 해당되지 않은 영역에 대해 영역 SKIP을 수행하도록 제어할 수 있다.
산출부는, 복잡도가 제1 단계 보다 낮은 제2 단계에 해당하면, Xthing 영역을 스케일링하여 처리하도록 제어하고, 복잡도가 제2 단계 보다 낮은 제3 단계에 해당하면, Xthing 영역을 스케일링하지 않고 처리하도록 제어할 수 있다.
한편, 본 발명의 다른 실시예에 따른, 영상 세그먼테이션 방법은, 입력 영상에서 특징을 추출하는 네트워크에서 추출된 특징을 이용하여, Instance segmentation 방법으로 동적 객체들을 추출하는 제1 처리단계; 입력 영상의 복잡도를 기초로, 제1 처리단계에서 네트워크에서 추출된 특징 중 일부 영역을 SKIP 하도록 제어하는 단계; 네트워크에서 추출된 특징을 이용하여, Semantic segmentation 방법으로 정적 객체들을 추출하는 제2 처리단계; 제1 처리단계의 추출 결과와 제2 처리단계의 추출 결과를 융합하는 융합부;를 포함한다.
이상 설명한 바와 같이, 본 발명의 실시예들에 따르면, RPN-Skip을 통해 RPN에서 생성된 anchor box의 수를 줄임으로서 Complexity를 효과적으로 줄일 수 있게 된다.
또한, 본 발명의 실시예들에 따르면, 연산 부하의 감경을 통해 Panoptic segmentation 처리를 위한 Complexity를 줄임으로써 Embedded 환경에서도 보다 용이하게 상기 Panoptic Segmentation 방법을 처리할 수 있게 된다.
나아가, 본 발명의 실시예들에서 제시한 RPN-Skip 방법은 Instant Segmentation과 Semantic Segmentation을 복합하여 처리하는 Panoptic Segmentation처리 방법뿐 아니라, Bounding Box기반의 Object Detection과 Semantic Segmentation을 복합하여 처리하는 Fusion 알고리즘 등에도 동일한 방식으로 용이하게 변형하여 적용 가능하다.
도 1은 본 발명의 일 실시예에 따른 Panoptic Segmentation 가속처리 시스템의 구성도,
도 2는 Instance segmentation에서 2-Stage Mask-RCNN 기반의 방법,
도 3은 RPN에서 anchor box 생성 과정
도 4는 Center Point Skip 방법,
도 5는 Center Point SKIP 방법,
도 6은 본 발명의 일 실시예에 따른 Panoptic Segmentation 가속처리 시스템의 하드웨어 구성도이다.
이하에서는 도면을 참조하여 본 발명을 보다 상세하게 설명한다.
도 1은 본 발명의 일 실시예에 따른 Panoptic Segmentation 가속처리 시스템의 구성도이다.
Panoptic segmentation은 Scene을 Thing이나 Stuff로 분리하여 모든 픽셀을 레이블링 하는데, Thing 클래스는 주로 차, 사람 등과 같은 동적 객체(클래스)를 의미하며 Stuff 클래스는 그 외의 하늘, 길, 건물 등과 같은 정적 객체(Semantic한 클래스)를 의미한다.
도 1에 도시된 바와 같이, Panoptic segmentation은 FPN Network(10), Instant segmentation 처리부로 기능하는 Instant head(20), Semantic segmentation 처리부로 기능하는 Semantic head(30), 복잡도 산출부로 기능하는 Complexity Block(40) 및 Panoptic 융합부로 기능하는 Panoptic Fusion(50)을 포함한다.
Instant head(20)는 Thing 클래스를 추출하기 위한 구성으로, Instance segmentation 방법을 이용하여 mask logists, class, Bounding box의 형태로 처리 결과를 추출한다.
Semantic head(30)는 Stuff 클래스를 추출하기 위한 구성으로, Semantic segmentation 방법을 이용하여 Semantic logists를 추출한다.
Panoptic Fusion(50)은 Instant head(20)의 Instance segmentation 결과와 Semantic head(30)의 Semantic segmentation 결과를 fusion하여 Panoptic segmentation 결과를 추출한다.
Panoptic segmentation에서는 입력 영상에서 특징을 추출하기 위한 backbone network으로 FPN Network(Feature Pyramid Network)(10)를 사용하는데, FPN Network(10)는 Semantic segmentation 및 Instance segmentation에 동시 사용될 수 있다는 장점이 있다.
Panoptic segmentation 처리 방법에서, Semantic segmentation 방법은 FPN에서 convolution 연산과 up-sampling을 통해 추출할 수 있고, Instance segmentation은 도 2에 도시된 바와 같이 2-Stage instance segmentation 방식을 사용한다.
도 2는 Instance segmentation에서 2-Stage Mask-RCNN 기반의 방법의 설명에 제공되는 도면이다.
동작 방식은 먼저 RPN(Region Proposal Network) 네트워크에서 후보 ROI를 선택하고 선택된 ROI 기반으로 ROI pooling 통해 ROI feature을 선택한다. 다음, 선택된 ROI feature를 기반으로 Object class, bounding box, mask logists를 추출한다.
RPN에서는 도 3에 도시된 같이 Input feature을 sliding window을 통해 각 center point를 선발하고 center point 마다 k개의 anchor box을 만들어 최종 ROI 후보를 선택한 후 후보 ROI를 기반으로 class, Bbox, mask을 추출한 다음에 NMS(Non Maximum Suppression) 방법을 통해 최종 best class, best Bbox, best masklogists을 추출한다.
즉, RPN에서 sliding window을 통해 center point을 선택하고, 해당된 center point 기반으로 k anchor box을 생성한다.
Complexity Block(40)은 입력 영상과 Semantic Segmentation의 결과값을 이용하여 Image Complexity를 계산하고, Instance head(20)는 연산 처리를 가속화 하기 위해 계산된 Image Complexity를 기반으로 RPN에서 Center point SKIP을 수행한다.
Panoptic Segmentation을 가속 처리 수행하는 Center Point Skip 방법은 보다 구체적으로 도 4에 도시된 바와 같이, 3단계로 구성되어 있는데, 먼저 입력영상과 Semantic Segmentation의 결과인 Semantic logist를 이용하여 Complexity measure와 SKIP 영역 결정을 Complexity Block(40)에서 수행하며, SKIP 영역 결정 블록의 출력인 CPS 정보와 Xthing 정보를 이용하여 최종적으로 Center Point SKIP 여부를 결정하게 된다. 도 4에서 각 기능 블록의 연산 처리 과정은 다음과 같다
(1) Complexity Measure
Complexity Measure 블록은 영상의 Complexity를 계산하며 영상의 Complexity는 입력영상의 Histogram 정보 와 Semantic Segmentation에서 출력되는 feature정보(Semantic logist)에 기반하여 계산된다.
보다 상세한 Complexity Measure 방법은 다음과 같다.
먼저, Histogram 기반 Complexity를 계산하기 위해서 다음 식 (1)과 같이 Panoptic Segmentation을 수행하기 위한 입력 영상의 Histogram을 계산하고 Histogram의 Variance를 계산하여 복잡도를 계산한다.
H=Histogram(Image)
HistogramComplexity=(var(H))/M (1)
여기서, M은 histogram total bin 값을 의미한다.
다음으로 Semantic feature 기반 Complexity를 계산하기 위해서 Semantic Segmentation의 처리 결과로 도출되는 Feature 정보인 Semantic logist를 전체 입력 영상에 대해 thing에 해당된 영역을 나타내는 (Xthing)과 나머지 부분인 stuff(Xstuff)로 분리하여 다음과 같은 비율로 Semantic logist의 SegComplexity를 측정한다
SegComplexity=Xthing/(Xstuff+Xthing ) (2)
최종적으로 상기 정보로부터 계산되어 결정되는 Image complexity는 다음의 식으로 정의하여 계산한다.
ImgComplexity=a×HistogramComplexity+ b×SegComplexity (3)
α,b : weighting coefficient parameters.
α+ b = 1 (4)
(2) SKIP 영역 결정:
Skip 영역 결정 블록은 식 (3)에 기준하여 Image Complexity의 수준을 판단하고 최종적으로 Skip 방법을 결정한다.
본 발명의 실시예에서는 Skip complexity 영역을 다음과 같이 3개의(low, middle, high) 단계로 정의하여 각 단계에 따라 Skip 처리 방법을 결정하는데 하기 Skip 단계의 값은 변경 가능하며, 또한 각 Skip 단계는 Skip 전략에 따라 추가 또는 감소할 수 있다.
1) Skip complexity Low: [0, …,0.3]
2) Skip complexity Middle: [0.31 , … , 0.7]
3) Skip complexity High: [0.71, … , 1.0]
상기의 3단계에 기준한 Skip 방법을 기준으로 하면, Complexity measure 단계에서 계산된 ImgComplexity 값이 상기 정의한 Skip complexity 단계의 어떠한 해당 영역에 포함되는지를 측정한 후 이를 기반으로 다음과 같이 RPN에 대한 처리를 결정한다.
① Image complexity가 Skip complexity HIGH에 해당되면 RPN SKIP off 한다. 이 경우 CPS = 0(RPN center point SKIP off)를 출력하고, RPN 처리 과정을 수행한다.
② Image complexity가 Skip complexity MIDDLE이면 이면 Xthing 영역 Scale하면서 RPN SKIP 방법을 진행한다.
즉, CPS = 1(RPN center point SKIP on)을 출력하고 다음 식과 같이 Xthing 영역을 Scale하여 Scale된 영역에 대해 RPN 처리를 수행한다.
: Xthing=Scale(Xthing,c) , c - scale ratio of Xthing region , c ≥1
③ Image complexity가 Skip complexity LOW이면 Xthing 영역을 바로 사용한다.
즉, CPS = 1(RPN center point SKIP on)을 출력하고 Xthing 영역에 대한 Scaling 없이 전체 영역에 대해 RPN처리를 수행한다.
: Xthing= Xthing
3) Center point SKIP 수행:
Complexity 계산 결과에 따라 Instant Segmentation처리를 위한 Center point skip은 다음과 같이 Complexity HIGH인 경우 center point SKIP을 진행하지 않고, 모든 Sematic Segmentation의 Center point에 대해 Instant Segmentation 연산을 위한 처리를 수행하며, Complexity LOW 또는 MIDDLE인 경우 Xthing 영역에 해당되지 않은 부분에 대해 center point SKIP을 진행한다.
보다 상세하게 도 5에서 본 발명의 실시예에서 제시하는 RPN center point SKIP 방법의 동작 방식을 흐름도로 설명한다.
101: i값인 centerPoint의 위치 정보를 초기화한다.
102: Xfeature(FPN) 추출된 feature기반으로 sliding_window 기반으로 해당된 새로운 center point(centerPointi)을 선택한다.
103: 도 4에 기술한 방식으로 Image complexity를 연산하여 Center point SKIP 적용 방법을 결정한다.
: FALSE(CPS = 0)인 경우 Center point SKIP을 적용하지 않고 RPN 방법을 적용한다.
: TRUE(CPS = 1)인 경우 Center point SKIP 방법을 사용한다.
104: centerPointi는 Xthing 영역에 해당하는지를 확인한다.
: FALSE: centerPointi가 Xthing 영역에 해당되지 않으면 centerPointi에 해당되는 영역을 SKIP하고 102로 복귀한다.
: TRUE: centerPointi가 Xthing 영역에 해당되면 centerPointi 기반으로 해당 영역에서 RPN 처리를 수행한다.
105: j값인 anchor box의 숫자를 초기화한다.
106: centerPointi에 해당되는 anchor box를 생성한다.
107: 생성된 anchor box를 기반으로 maskij, classij, bboxij을 생성한다.
108: 생성된 모든 Anchor에 대해 anchor 생성을 수행 하였는지 확인한다.
: maxAnchor까지 anchor가 생성되었으면 109 단계로 이동한다.
: maxAnchor까지 anchor가 생성되지 않았으면 106단계에서 centerPointi 에 해당되는 다음 anchorj를 생성한다.
109: centerPoint의 i값이 maxCenterPoint까지 centerPointi를 생성하였는지를 확인한다.
: 모든 영역에서 centerPoint을 생성했으면 110단계로 이동한다.
: 그렇지 않으면 102단계로 이동하여 다음 centerPoint를 sliding_window를 통해 생성하고 i를 증가시킨다.
110: RPN에서 선택된 모든 maskij, classij, bboxij을 다음 단계로 전달한다.
지금까지, 복잡도 기반 특정 영역 연산 생략 방식을 이용한 딥러닝 기반 범시적 영역 분할 연산 가속처리 방법에 대해 바람직한 실시예를 들어 상세히 설명하였다.
본 발명의 실시예에서는, Panoptic segmentation(범시적 영역 분할)을 위한 영상 복잡도(Image Complexity) 기반 사례별 영역 분할(Instance segmentation)의 RPN 가속화를 위해, Panoptic segmentation을 구성하는 요소 중 하나인 Instance segmentation 수행부의 RPN(Region Proposal Network) 처리를 위해 모든 영역에서 sliding window을 통해 center point를 선택하지 않고 Semantic Segmentation 처리부의 Image Complexity를 먼저 측정하여 Instant segmentation 처리 과정에서 불 필요한 영역에 해당되는 부분을 RPN에서 연산하지 않고 연산 생략(SKIP)하여 RPN을 가속하는 방법을 제시하였다.
RPN-Skip 방법을 통해 RPN에서 생성된 anchor box의 수를 줄임으로, 연산 부하의 감경을 통해 Panoptic segmentation 처리를 위한 Complexity를 줄임으로써 Embedded 환경에서도 보다 용이하게 상기 Panoptic Segmentation방법을 처리할 수 있다.
또한, 제시한 RPN-Skip 방법은 상기 기술한 Instant Segmentation과 Semantic Segmentation을 복합하여 처리하는 Panoptic Segmentation 처리 방법 뿐 아니라, Bounding Box 기반의 Object Detection과 Semantic Segmentation을 복합하여 처리하는 Fusion 알고리즘 등에도 동일한 방식으로 용이하게 변형하여 적용 가능하다.
도 6은 본 발명의 일 실시예에 따른 Panoptic Segmentation 가속처리 시스템의 하드웨어 구성도이다. Panoptic Segmentation 가속처리 시스템의 하드웨어는, 도시된 바와 같이, 입력부(210), 프로세서(220), 출력부(230) 및 저장부(240)를 포함하여 구성된다.
입력부(210)는 Panoptic Segmentation 대상이 되는 영상이 입력되어 프로세서(220)로 인가한다. 프로세서(220)는 전술한 Panoptic Segmentation 처리를 수행한다.
출력부(230)는 프로세서(220)에 의한 처리 결과를 출력하고, 저장부(240)는 프로세서(220)가 기능하고 동작함에 있어 필요한 저장 공간을 제공한다.
한편, 본 실시예에 따른 장치와 방법의 기능을 수행하게 하는 컴퓨터 프로그램을 수록한 컴퓨터로 읽을 수 있는 기록매체에도 본 발명의 기술적 사상이 적용될 수 있음은 물론이다. 또한, 본 발명의 다양한 실시예에 따른 기술적 사상은 컴퓨터로 읽을 수 있는 기록매체에 기록된 컴퓨터로 읽을 수 있는 코드 형태로 구현될 수도 있다. 컴퓨터로 읽을 수 있는 기록매체는 컴퓨터에 의해 읽을 수 있고 데이터를 저장할 수 있는 어떤 데이터 저장 장치이더라도 가능하다. 예를 들어, 컴퓨터로 읽을 수 있는 기록매체는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광디스크, 하드 디스크 드라이브, 등이 될 수 있음은 물론이다. 또한, 컴퓨터로 읽을 수 있는 기록매체에 저장된 컴퓨터로 읽을 수 있는 코드 또는 프로그램은 컴퓨터간에 연결된 네트워크를 통해 전송될 수도 있다.
또한, 이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.

Claims (8)

  1. 입력 영상에서 특징을 추출하는 네트워크;
    네트워크에서 추출된 특징을 이용하여, Instance segmentation 방법으로 동적 객체들을 추출하는 제1 처리부;
    입력 영상의 복잡도를 기초로, 제1 처리부가 네트워크에서 추출된 특징 중 일부 영역을 SKIP 하도록 제어하는 산출부;
    네트워크에서 추출된 특징을 이용하여, Semantic segmentation 방법으로 정적 객체들을 추출하는 제2 처리부;
    제1 처리부의 추출 결과와 제2 처리부의 추출 결과를 융합하는 융합부;를 포함하는 것을 특징으로 하는 영상 세그먼테이션 시스템.
  2. 청구항 1에 있어서,
    산출부는,
    입력 영상의 히스토그램과 제2 처리부의 추출 결과를 이용하여, 입력 영상의 복잡도를 산출하는 것을 특징으로 하는 영상 세그먼테이션 시스템.
  3. 청구항 2에 있어서,
    입력 영상의 히스토그램 기반의 복잡도는 다음의 수식을 통해 산출하며,
    H=Histogram(Image)
    HistogramComplexity=(var(H))/M
    Image는 입력 영상이고, HistogramComplexity는 입력 영상의 히스토그램 기반의 복잡도이며, var(H)는 H의 분산이고, M은 M은 histogram total bin 값인 것을 특징으로 하는 영상 세그먼테이션 시스템.
  4. 청구항 3에 있어서,
    제2 처리부의 추출 결과 기반의 복잡도는 다음의 수식을 통해 산출하며,
    SegComplexity=Xthing/(Xstuff+Xthing)
    SegComplexity는 제2 처리부의 추출 결과 기반의 복잡도이고, Xthing은 제2 처리부에 의해 thing(동적 객체)으로 추출된 영역이고, Xstuff는 제2 처리부에 의해 stuff(정적 객체)으로 추출된 영역인 것을 특징으로 하는 영상 세그먼테이션 시스템.
  5. 청구항 4에 있어서,
    산출부는,
    다음의 수식을 통해 입력 영상의 복잡도를 산출하며,
    ImgComplexity=a×HistogramComplexity+ b×SegComplexity
    ImgComplexity는 입력 영상의 복잡도이며, a와 b는 weighting coefficient parameters인 것을 특징으로 하는 영상 세그먼테이션 시스템.
  6. 청구항 1에 있어서,
    산출부는,
    복잡도가 제1 단계에 해당하면, 영역 SKIP을 수행하지 않도록 제어하고,
    복잡도가 제1 단계 보다 낮은 단계에 해당하면, Xthing 영역에 해당되지 않은 영역에 대해 영역 SKIP을 수행하도록 제어하는 것을 특징으로 하는 영상 세그먼테이션 시스템.
  7. 청구항 6에 있어서,
    산출부는,
    복잡도가 제1 단계 보다 낮은 제2 단계에 해당하면, Xthing 영역을 스케일링하여 처리하도록 제어하고,
    복잡도가 제2 단계 보다 낮은 제3 단계에 해당하면, Xthing 영역을 스케일링하지 않고 처리하도록 제어하는 것을 특징으로 하는 영상 세그먼테이션 시스템.
  8. 입력 영상에서 특징을 추출하는 네트워크에서 추출된 특징을 이용하여, Instance segmentation 방법으로 동적 객체들을 추출하는 제1 처리단계;
    입력 영상의 복잡도를 기초로, 제1 처리단계에서 네트워크에서 추출된 특징 중 일부 영역을 SKIP 하도록 제어하는 단계;
    네트워크에서 추출된 특징을 이용하여, Semantic segmentation 방법으로 정적 객체들을 추출하는 제2 처리단계;
    제1 처리단계의 추출 결과와 제2 처리단계의 추출 결과를 융합하는 융합부;를 포함하는 것을 특징으로 하는 영상 세그먼테이션 방법.
PCT/KR2020/016768 2020-11-25 2020-11-25 복잡도 기반 특정 영역 연산 생략 방식을 이용한 딥러닝 기반 범시적 영역 분할 연산 가속처리 방법 WO2022114252A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/623,067 US20230252755A1 (en) 2020-11-25 2020-11-25 Accelerated processing method for deep learning based-panoptic segmentation using a rpn skip based on complexity

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2020-0159431 2020-11-25
KR1020200159431A KR102313556B1 (ko) 2020-11-25 2020-11-25 복잡도 기반 특정 영역 연산 생략 방식을 이용한 딥러닝 기반 범시적 영역 분할 연산 가속처리 방법

Publications (1)

Publication Number Publication Date
WO2022114252A1 true WO2022114252A1 (ko) 2022-06-02

Family

ID=78271237

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2020/016768 WO2022114252A1 (ko) 2020-11-25 2020-11-25 복잡도 기반 특정 영역 연산 생략 방식을 이용한 딥러닝 기반 범시적 영역 분할 연산 가속처리 방법

Country Status (3)

Country Link
US (1) US20230252755A1 (ko)
KR (1) KR102313556B1 (ko)
WO (1) WO2022114252A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115908442A (zh) * 2023-01-06 2023-04-04 山东巍然智能科技有限公司 一种无人机海洋监测用图像全景分割方法及模型搭建方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11941884B2 (en) * 2021-11-12 2024-03-26 Adobe Inc. Multi-source panoptic feature pyramid network

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100011288A (ko) * 2008-07-24 2010-02-03 삼성디지털이미징 주식회사 영상 압축 방법, 이를 실행시키기 위한 프로그램을 기록한컴퓨터로 읽을 수 있는 매체 및 디지털 촬영 장치
US10262237B2 (en) * 2016-12-08 2019-04-16 Intel Corporation Technologies for improved object detection accuracy with multi-scale representation and training
KR20200007084A (ko) * 2017-12-11 2020-01-21 주하이 다 헝친 테크놀러지 디벨롭먼트 컴퍼니 리미티드 장면의 다차원 특징을 기반으로 하는 선박 탐지 방법 및 시스템
KR20200068102A (ko) * 2018-11-28 2020-06-15 이노뎁 주식회사 압축영상에 대한 신택스 기반의 mrpn-cnn을 이용한 객체 분류 방법

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10776665B2 (en) * 2018-04-26 2020-09-15 Qualcomm Incorporated Systems and methods for object detection
CN109543634B (zh) * 2018-11-29 2021-04-16 达闼科技(北京)有限公司 定位过程中的数据处理方法、装置、电子设备和存储介质
US11410315B2 (en) * 2019-11-16 2022-08-09 Uatc, Llc High quality instance segmentation

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100011288A (ko) * 2008-07-24 2010-02-03 삼성디지털이미징 주식회사 영상 압축 방법, 이를 실행시키기 위한 프로그램을 기록한컴퓨터로 읽을 수 있는 매체 및 디지털 촬영 장치
US10262237B2 (en) * 2016-12-08 2019-04-16 Intel Corporation Technologies for improved object detection accuracy with multi-scale representation and training
KR20200007084A (ko) * 2017-12-11 2020-01-21 주하이 다 헝친 테크놀러지 디벨롭먼트 컴퍼니 리미티드 장면의 다차원 특징을 기반으로 하는 선박 탐지 방법 및 시스템
KR20200068102A (ko) * 2018-11-28 2020-06-15 이노뎁 주식회사 압축영상에 대한 신택스 기반의 mrpn-cnn을 이용한 객체 분류 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YUWEN XIONG; RENJIE LIAO; HENGSHUANG ZHAO; RUI HU; MIN BAI; ERSIN YUMER; RAQUEL URTASUN: "UPSNet: A Unified Panoptic Segmentation Network", ARXIV.ORG, 12 January 2019 (2019-01-12), 201 Olin Library Cornell University Ithaca, NY 14853 , XP081004677 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115908442A (zh) * 2023-01-06 2023-04-04 山东巍然智能科技有限公司 一种无人机海洋监测用图像全景分割方法及模型搭建方法

Also Published As

Publication number Publication date
KR102313556B1 (ko) 2021-10-18
US20230252755A1 (en) 2023-08-10

Similar Documents

Publication Publication Date Title
WO2022114252A1 (ko) 복잡도 기반 특정 영역 연산 생략 방식을 이용한 딥러닝 기반 범시적 영역 분할 연산 가속처리 방법
WO2021085784A1 (ko) 객체 검출 모델의 학습 방법 및 객체 검출 모델이 실행되는 객체 검출 장치
WO2021133001A1 (ko) 시멘틱 이미지 추론 방법 및 장치
US8594432B2 (en) Image processing apparatus and image processing method
WO2020130309A1 (ko) 영상 마스킹 장치 및 영상 마스킹 방법
WO2019235828A1 (ko) 투 페이스 질병 진단 시스템 및 그 방법
WO2021118041A1 (ko) 작업 난이도에 따라 레이블링 작업을 분배하는 방법 및 그를 이용한 장치
WO2010041836A2 (en) Method of detecting skin-colored area using variable skin color model
WO2020196985A1 (ko) 비디오 행동 인식 및 행동 구간 탐지 장치 및 방법
WO2021101045A1 (en) Electronic apparatus and method for controlling thereof
WO2021153861A1 (ko) 다중 객체 검출 방법 및 그 장치
WO2014061922A1 (ko) 에지 영상을 이용한 카메라 탬퍼링 검출장치 및 방법
WO2024019337A1 (en) Video enhancement method and apparatus
WO2021225296A1 (en) Method for explainable active learning, to be used for object detector, by using deep encoder and active learning device using the same
WO2023210884A1 (ko) 비지역적 평균 기반의 노이즈 제거 장치 및 방법
WO2022107925A1 (ko) 딥러닝 객체 검출 처리 장치
WO2019231162A1 (ko) 이미지 분할 방법 및 장치
WO2023096011A1 (ko) 제로샷 시맨틱 분할 장치 및 방법
WO2022019355A1 (ko) 다중 페이즈 생체 이미지를 이용하여 학습된 뉴럴 네트워크를 이용한 질병 진단 방법 및 이를 수행하는 질병 진단 시스템
EP3707646A1 (en) Electronic apparatus and control method thereof
WO2021125539A1 (ko) 영상에 포함된 객체를 분류하는 장치, 방법 및 컴퓨터 프로그램
WO2018131729A1 (ko) 단일 카메라를 이용한 영상에서 움직이는 객체 검출 방법 및 시스템
WO2020045903A1 (ko) Cnn을 이용하여 크기 독립적으로 물체를 검출하는 방법 및 장치
WO2023282445A1 (ko) 감정 인식 장치 및 그 동작방법
WO2022107911A1 (ko) 다중 특징 추출기를 적용한 차량용 경량 딥러닝 처리 장치 및 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20963648

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20963648

Country of ref document: EP

Kind code of ref document: A1