WO2021201422A1 - Ar에 적용 가능한 의미적인 분할 방법 및 시스템 - Google Patents

Ar에 적용 가능한 의미적인 분할 방법 및 시스템 Download PDF

Info

Publication number
WO2021201422A1
WO2021201422A1 PCT/KR2021/001800 KR2021001800W WO2021201422A1 WO 2021201422 A1 WO2021201422 A1 WO 2021201422A1 KR 2021001800 W KR2021001800 W KR 2021001800W WO 2021201422 A1 WO2021201422 A1 WO 2021201422A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
semantic segmentation
atrous
convolution
atros
Prior art date
Application number
PCT/KR2021/001800
Other languages
English (en)
French (fr)
Inventor
이승호
고태영
Original Assignee
한밭대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한밭대학교 산학협력단 filed Critical 한밭대학교 산학협력단
Publication of WO2021201422A1 publication Critical patent/WO2021201422A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features

Definitions

  • the present invention relates to a semantic segmentation method and system applicable to AR, and more particularly, to a semantic segmentation applicable to AR that improves the performance speed and accuracy of image analysis in order to apply image analysis to AR (Augmented Reality). It relates to methods and systems.
  • the semantic segmentation is a technique of dividing an image by pixel for a pre-learned class, and it is a high-level technique that completely understands the scene in the image, not simply classifying the picture by class. It is one of the key computer vision skills required to do this.
  • the semantic segmentation algorithm has high requirements for efficient execution speed for fast interaction or response and accuracy for accurate determination.
  • the performance speed of semantic segmentation and the accuracy for accurate judgment are essential elements for technologies such as safety control, driving decision, and collision avoidance in autonomous driving.
  • an object of the present invention is to improve the accuracy of image analysis by effectively extracting a small object from an input image in order to solve the disadvantages of the prior art.
  • a semantic segmentation method applicable to AR according to an aspect of the present invention for achieving this technical task is semantic segmentation in which an object is classified and labeled in an input image to obtain a semantic segmented image. It includes an image acquisition step (S10) and a modified extended residual network (DRN, Dilated Residual Network) step (S20) of extracting a feature map from an image acquired using Atrous convolution do.
  • DNN modified extended residual network
  • Dilated Residual Network Dilated Residual Network
  • Atrous Pyramid Pooling Module step (S30) which forms a feature point map in a pyramid shape
  • S40 A modified extended residual network backpropagation step (S40) of comparing the provided result images and correcting the weights to reduce the error rate based on the comparison result is included.
  • the feature point map extracted in the Atros pyramid pooling module step (S30) is stacked in a pyramid shape, and 1x1 convolution is applied to the feature point map formed in the pyramid shape to form one channel. It includes the process of forming a feature point map of
  • the semantic segmentation system applicable to AR includes an image input unit, a segmented image acquisition unit, a feature point extraction unit, a determination unit, and a storage unit.
  • the image input unit may receive image information captured through an imaging device such as a camera or image information through a standard database.
  • the segmented image obtaining unit obtains a semantic segmentation image by classifying an object from the image information received through the image input unit and labeling the classified object.
  • the feature point extraction unit includes an extended residual network module and an Atros pyramid pooling module.
  • the extended residual network module extracts a feature map from the image acquired through the divided image acquisition unit by using Atrous convolution.
  • Atros pyramid pooling module selectively applies various Atrous convolutions according to the feature point map extracted from the extended residual network module in order to effectively extract an object with a small area occupied by the image, and Atros Convolutions are arranged in parallel to extract a feature point map.
  • the determination unit compares the result extracted from the atros pyramid pooling module with the result image provided from a preset standard database, and determines based on the comparison result and corrects the weight to reduce the error rate.
  • the semantic segmentation method and system applicable to AR according to the present invention can effectively extract small objects and improve the accuracy of image analysis by applying atros convolution to the feature point map extracted from the image. there is an effect
  • the performance speed of semantic segmentation for applying image analysis to AR can be improved by forming a feature point map in a pyramid shape after extracting feature points by arranging atros convolution in parallel.
  • there is an effect there is an effect of reducing the error rate of semantic segmentation and improving accuracy by using dilated residual network backpropagation.
  • FIG. 1 is a conceptual diagram illustrating a semantic segmentation method applicable to AR according to an embodiment of the present invention.
  • FIG. 2 is a flowchart illustrating a semantic segmentation method applicable to AR according to an embodiment of the present invention.
  • FIG. 3 is a diagram illustrating a semantic segmentation image acquisition process.
  • FIG. 4 is a diagram showing an image of a Pascal (PASCAL) VOC 2012 database.
  • FIG. 5 is a diagram illustrating an image of a Cityscape database.
  • FIG. 6 is a diagram illustrating an Atrous convolution according to an embodiment of the present invention.
  • FIG. 7 is a diagram illustrating a result of performing semantic division of a conventional convolution and an atros convolution according to an embodiment of the present invention.
  • DNN extended residual network
  • FIG. 9 is a diagram illustrating an atros pyramid pooling module according to an embodiment of the present invention.
  • FIG. 10 is a diagram illustrating a structure of a convolution.
  • 11A and 11B are diagrams illustrating a Karpathy calculation graph of a backpropagation process.
  • FIG. 12 is a diagram illustrating an image of a backpropagation process according to an embodiment of the present invention.
  • FIG. 13 is a flowchart illustrating an evaluation procedure of a semantic segmentation method applicable to AR according to an embodiment of the present invention.
  • FIG. 14 is a configuration diagram illustrating a semantic division system applicable to AR according to an embodiment of the present invention.
  • FIG. 1 is a conceptual diagram illustrating a semantic segmentation method applicable to augmented reality (AR) according to an embodiment of the present invention
  • FIG. 2 is a flowchart illustrating a semantic segmentation method applicable to AR according to an embodiment of the present invention.
  • a semantic segmentation method applicable to AR obtains a semantic segmentation image to obtain a semantic segmentation image by classifying and labeling an object in an input image Step S10, and a modified extended residual network (DRN, Dilated Residual Network) step of extracting a feature map (feature map) from an image obtained using Atrous convolution (S20).
  • DNN modified extended residual network
  • FIG. 3 is a diagram illustrating a semantic segmentation image acquisition process
  • FIG. 4 is a diagram illustrating an image of a PASCAL VOC 2012 database
  • FIG. 5 is a diagram illustrating an image of a Cityscape database .
  • the semantic segmented image acquisition step (S10) includes the steps of taking an image through an imaging device such as a camera (S11), detecting an object from the captured image (S12), and selecting the detected object. It may include a step (S13) of obtaining a segmentation image by labeling based on it.
  • a normalized standard database may be used for objective evaluation of a semantic segmentation method applicable to AR according to an embodiment of the present invention. That is, a normalized standard database is used to describe a semantic segmentation method applicable to AR according to an embodiment of the present invention.
  • a semantic segmentation image can be obtained by classifying and labeling objects of an image using the PASCAL VOC 2012 database of FIG. 4 and the Cityscape database of FIG. 5 . have.
  • the PASCAL VOC 2012 database of FIG. 4 is an airplane, a bicycle, a bird, a boat, a bottle, a bus, a car, and a cat. , chair, cow, dining table, dog, horse, motorbike, person, potted plant, sheep, sofa It represents a database consisting of a total of 20 classes such as sofa), train, and TV/monitor.
  • the Cityscape database of FIG. 5 is a standard database constructed and published as an image of a city street scene. That is, the Cityscape database is an image data set taken in about 50 cities on various days and time zones, and is composed of 5000 images having about 30 classes.
  • the semantic segmentation image is preferably adjusted to the same size in order to maintain consistency.
  • the semantic segmented images may be adjusted to a size of 513x513.
  • the modified extended residual network (DRN) step S20 transforms the convolution to maintain spatial information as much as possible while extracting feature points. ) to extract a feature map from the original image.
  • DNN modified extended residual network
  • the Atrous convolution structure increases the size of a window without increasing the number of weights by putting zero padding inside the filter under the influence of wavelet analysis. .
  • Such an Atrous convolution can capture large features with the same amount of computation compared to the conventional convolution, and more spatial features can be extracted by using the Atrous convolution with various expansion ratios in parallel. .
  • k denotes a kernel and s denotes a stride.
  • FIG. 7 is a diagram illustrating a result of performing semantic division of a conventional convolution and an atros convolution according to an embodiment of the present invention.
  • the convolution is performed while taking a large receptive field, thereby minimizing the loss of spatial information and obtaining a large resolution. .
  • the semantic segmentation method applicable to AR uses Atrous convolution to extend the kernel with bin weights, so that the network does not depend on a pooling function to generate long-range features. Learning, without pooling, the network can retain more high spatial frequency details.
  • FIG. 8 is a diagram illustrating a Dilated Residual Network (DRN) according to an embodiment of the present invention
  • FIG. 9 is a diagram illustrating an Atrous pyramid pooling module according to an embodiment of the present invention.
  • FIG. 8 is a diagram for transforming 101 stages of a residual network by applying the DRN principle, and extracting a feature point map using the transformed DRN.
  • [Table 1] below shows the structure of the DRN according to an embodiment of the present invention.
  • the DRN generates a feature point map by extracting only important features while maximally preserving spatial features of the entire image from the input image.
  • a semantic segmentation method applicable to AR is selectively performed according to the extracted feature point map in order to effectively extract an object occupied by a small area in an image by performing various kinds of Atrous convolution (Atrous Convolution). convolution), extracting feature points by arranging atros convolutions in parallel, and then forming a feature point map in a pyramid shape (Atrous Pyramid Pooling Module) step (S30), and the Atrous Pyramid Pooling
  • the modified extended residual network backpropagation that compares the result extracted through the Atrous Pyramid Pooling Module step (S30) with the result image provided from the standard database, and corrects the weight to reduce the error rate based on the comparison result.
  • Network Backpropagation Network Backpropagation
  • the semantic segmentation method applicable to AR according to an embodiment of the present invention is applied by giving a modification from Pyramid sense pooling of PSPNet (Pyramid Scene Parsing Network) to solve this problem.
  • PSPNet Physical Scene Parsing Network
  • a keypoint map may be extracted by applying five atros convolutions in parallel to a 28x28 size keypoint map obtained through DRN.
  • the atros convolution applied here is a general convolution with rate 1 applied, atros convolution with rates 3, 6, and 9 applied, and the last step is the modified extended residual network (DRN) step.
  • Image pooling is applied to the feature point map extracted in (S20).
  • the extracted five feature point maps are stacked in a pyramid shape, and 1x1 convolution is applied to extract a one-channel feature point map.
  • Atrous Pyramid Pooling Module step (S30) is performed in the Dilated Residual Network (DRN) step (S20) in order to effectively extract an object having a small area occupied in the image.
  • DNN Dilated Residual Network
  • Various Atrous convolutions are applied to the extracted feature point map.
  • Atrous Pyramid Pooling Module step (S30) in order to reduce the required time, Atrous convolutions are arranged in parallel to extract key points, and then, a key point map is built up in a pyramid shape.
  • the feature point maps having a size smaller than a preset reference value it is preferable to stack the feature point maps having a size smaller than a preset reference value to have the same size through up-sampling.
  • 1x1 convolution is applied to generate a 1-channel keypoint map.
  • the modified extended residual network backpropagation step (S40) provides semantic segmentation obtained through convolution in the final feature point map extracted from the Atrous Pyramid Pooling Module in the database.
  • the weight is corrected and the error rate is reduced by applying it to the convolution performed in step S20 of the modified extended residual network (DRN).
  • CNN Convolutional Neural Network
  • FIGS. 11A and 11B are diagrams illustrating a Karpathy calculation graph of a backpropagation process. That is, Figure 11a is based on the convolution structure of Figure 10 It is a diagram showing a backpropagation process for It is a diagram showing the backpropagation process for
  • the input value is a 5x5 matrix, represents the elements of the i-th row and j-th column of the input value, respectively.
  • the output value has a size of 2x2.
  • the value of is output as a convolution of
  • Fig. 11a is the value of the 3x3 filter in the forward process. Since convolution is performed only with weights, backpropagation is performed only once. At this time, The slope of is the inflow slope A local gradient ( ) can be multiplied by
  • FIGS. 11A and 11B are diagram illustrating an image of a backpropagation process according to an embodiment of the present invention. As shown in FIGS. 11A and 11B, it is difficult to apply the backpropagation method one by one.
  • the gradient can be simply obtained by using the back propagation process image of FIG. 12 .
  • the elements of the filter used to create the convolution layer are reversed and convolution is performed on the gradient matrix, the gradient for the input vector can be obtained.
  • the gradient of the filter is the first element of the gradient matrix this Because it is connected to the gradient of the filter, the gradient ( ) multiplied by the local gradient.
  • Backpropagation is performed by comparing the input image and the result obtained by applying the modified DRN (Dilated Residual Network), but the result obtained through the atros pyramid pooling module 320 may affect the actual accuracy.
  • modified DRN Digital Residual Network
  • the Dilated Residual Network Backpropagation step S40 the result obtained through the atros pyramid pooling module 320 as shown in FIG. 1 is compared with the true value provided from the standard database, and a preset Dilated Residual Network Backpropagation is performed using the corresponding error rate.
  • FIG. 13 is a flowchart illustrating an evaluation procedure of a semantic segmentation method applicable to AR according to an embodiment of the present invention. Through the process as shown in FIG. 13, the time taken for recognition (time required) according to the number of recognition of the semantic segmentation method applicable to AR of the present invention and the intersection rate (accuracy) between the predicted bounding box and the actual ground truth bounding box can be evaluated.
  • semantic segmentation is performed based on previously learned data.
  • the image of the PASCAL VOC 2012 database used in the experiment is adjusted to 513x513 size to evaluate the accuracy and required time.
  • “Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation” published in 2018 by Liang-Chieh Chen et al. Compare the accuracy.
  • the result of the semantic segmentation method applicable to AR according to an embodiment of the present invention shows higher accuracy than the techniques published in other papers.
  • the DeepLabv3+ technique presented in "Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation" presented by Liang-Chieh Chen et al. Backpropagation) is not performed, so the accuracy is lowered.
  • backpropagation is performed when the mIOU, which is the measurement index, does not exceed a certain value in the final image.
  • the time taken by performing semantic segmentation of an image of the PASCAL VOC 2012 database as an input is measured.
  • the semantic segmentation method applicable to AR according to an embodiment of the present invention is the number of images in which semantic segmentation is performed in 1 second for all images in the PASCAL VOC 2012 database. Frames per second measuring the required time shows a result of 64.3 (FPS).
  • the frames per second (FPS) is more than 60 (FPS), it can be confirmed that it can be applied to the AR field that follows the movement speed of a person.
  • the image of the Cityscape database used in the experiment is adjusted to a size of 513x513 like the image of the PASCAL VOC 2012 database and used.
  • the semantic segmentation method applicable to AR exhibits superior accuracy than techniques published in other papers by performing backpropagation when the mIOU, the measurement index, does not appear above a certain value in the final image. .
  • the time taken by performing semantic segmentation of an image of the Cityscape database as an input is measured.
  • the semantic segmentation method applicable to AR according to an embodiment of the present invention measures the required time by the number of images for which semantic segmentation is performed in 1 second targeting the Cityscape database One frame per second represents a result of 61 (FPS).
  • the frames per second (FPS) is more than 60 (FPS), it can be confirmed that it can be applied to the AR field that follows the movement speed of a person.
  • the semantic segmentation system 10 applicable to AR according to an embodiment of the present invention includes an image input unit 100 , a segmented image acquisition unit 200 , a feature point extraction unit 300 , a determination unit 400 , and a storage unit 500 . ) may be included.
  • the image input unit 100 may receive image information. That is, the image input unit 100 may receive image information captured through an imaging device such as a camera or image information through a standard database.
  • the standard database may include a PASCAL VOC 2012 database and a Cityscape database.
  • the segmented image obtaining unit 200 classifies an object from the image information received through the image input unit 100 and labels the classified object to obtain a semantic segmentation image.
  • Atros pyramid pooling module 320 selectively applies various Atrous convolutions according to the feature point map extracted from the extended residual network module 310 in order to effectively extract an object with a small area occupied in the image. Then, the feature point map is extracted by arranging the atros convolution in parallel.
  • the determination unit 400 modifies the weight of the Atrous convolution performed by the extended residual network module 310 to map a feature point of the image. map) is extracted again.
  • the storage unit 500 may store image information received through the image input unit 100 or a standard database. Also, the storage unit 500 stores the keypoint map extracted through the keypoint extraction unit 300 .
  • the semantic segmentation method and system applicable to AR can effectively extract small objects by applying atros convolution to the extracted feature point map.
  • atros convolutions in parallel to extract key points and then forming a key point map in a pyramid shape, the required time can be reduced.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 영상 분석을 AR(Augmented Reality)에 적용하기 위해 영상 분석의 수행 속도와 정확성을 향상시키는 AR에 적용 가능한 의미적인 분할 방법 및 시스템에 관한 것이다. 본 발명에 따른 AR에 적용 가능한 의미적인 분할 방법은 입력된 이미지에서 객체를 분류하고, 라벨링(Labeling) 하여 의미적인 분할 이미지를 획득하는 의미적인 분할(Semantic segmentation) 이미지 획득 단계(S10)와, 아트로스 컨볼루션(Atrous convolution)을 이용하여 획득된 이미지에서 특징점 맵(feature map)을 추출하는 변형된 확장 잔여 네트워크(DRN, Dilated Residual Network) 단계(S20) 및 이미지에서 차지하는 영역이 작은 객체를 효과적으로 추출하기 위해 상기 추출된 특징점 맵에 따라 선택적으로 다양한 아트로스 컨볼루션(Atrous convolution)을 적용하고, 아트로스 컨볼루션을 병렬적으로 배치하여 특징점을 추출한 후 피라미드 형상으로 특징점 맵을 형성하는 아트로스 피라미드 풀링 모듈(Atrous Pyramid Pooling Module) 단계(S30)를 포함한다.

Description

AR에 적용 가능한 의미적인 분할 방법 및 시스템
본 발명은 AR에 적용 가능한 의미적인 분할 방법 및 시스템에 관한 것으로서, 더욱 상세하게는 영상 분석을 AR(Augmented Reality)에 적용하기 위해 영상 분석의 수행 속도와 정확성을 향상시키는 AR에 적용 가능한 의미적인 분할 방법 및 시스템에 관한 것이다.
4차 산업혁명 이후 인공지능 및 로봇 개발이 가속화되면서 인간처럼 생각하는 분야의 연구가 확대되고 있다. 따라서 가상 및 증강 현실 시스템, 자율 주행, 의료 로봇, 드론 등 실시간으로 움직이며 판단하고 동작을 수행하는 연구에 관심이 늘어나고 있다.
이러한 연구의 바탕에는 사람의 눈을 대신하는 카메라를 통해 들어오는 영상을 분석하는 연구가 기초가 된다. 영상을 분석하는 연구에서 각 픽셀이 어떤 클래스에 해당하는지 레이블링을 수행하는 의미적인 분할(Semantic segmentation)에 관한 연구는 기본 과제이다.
상기 의미적인 분할(Semantic segmentation)은 미리 학습된 클래스에 대하여 영상을 픽셀별로 나누는 기법으로 단순히 사진을 클래스별로 분류하는 것이 아니라, 영상 속의 장면을 완벽하게 이해하는 높은 수준의 기법으로 시각적 환경을 완전히 이해하는데 필요한 핵심적인 컴퓨터 비전 기술 중의 하나이다.
또한, 상기 의미적인 분할 알고리즘은 빠른 상호 작용 또는 응답을 위한 효율적인 수행 속도와 정확한 판단을 위한 정확도의 요구가 높다. 예를 들어, 의미적인 분할의 수행 속도와 정확한 판단을 위한 정확도는 자율주행에서의 안전 제어 및 운전 결정, 충돌 회피와 같은 기술을 위해서 필수적인 요소이다.
하지만, 실제 촬영하는 영상에서 실시간으로 정확한 의미적인 분할을 수행하는 것은 어려움을 겪고 있다. 첫째로, 시각적 개체는 종종 변형, 폐색 및 스케일 변형의 영향을 받는다. 둘째, 배경 잡음은 객체를 배경에서 분리하기 어렵게 만든다.
따라서, 이러한 문제들을 다루기 위해서 우리는 외관 변화에 탄력적이고 강력한 알고리즘이 필요하다. 동시에, 복잡한 배경으로부터 물체를 구별하기 위해 다양한 상황별 정보를 고려할 필요가 있다.
[선행기술문헌]
[특허문헌] 대한민국 공개특허 제10-2019-0033933호(2019년 04월 01일 공개)
따라서, 본 발명은 종래의 단점을 해결하기 위한 것으로서, 입력 이미지에서 크기가 작은 객체를 효과적으로 추출하여 영상 분석의 정확성을 향상하고자 하는데 그 목적이 있다. 또한, 영상 분석을 AR(Augmented Reality)에 적용하기 위해 영상 분석의 수행 속도를 향상시키고자 하는데 그 목적이 있다.
이러한 기술적 과제를 이루기 위한 본 발명의 일 측면에 따른 AR에 적용 가능한 의미적인 분할 방법은 입력된 이미지에서 객체를 분류하고, 라벨링(Labeling) 하여 의미적인 분할 이미지를 획득하는 의미적인 분할(Semantic segmentation) 이미지 획득 단계(S10)와, 아트로스 컨볼루션(Atrous convolution)을 이용하여 획득된 이미지에서 특징점 맵(feature map)을 추출하는 변형된 확장 잔여 네트워크(DRN, Dilated Residual Network) 단계(S20)를 포함한다.
또한, 이미지에서 차지하는 영역이 작은 객체를 효과적으로 추출하기 위해 상기 추출된 특징점 맵에 따라 선택적으로 다양한 아트로스 컨볼루션(Atrous convolution)을 적용하고, 아트로스 컨볼루션을 병렬적으로 배치하여 특징점을 추출한 후 피라미드 형상으로 특징점 맵을 형성하는 아트로스 피라미드 풀링 모듈(Atrous Pyramid Pooling Module) 단계(S30)와, 상기 아트로스 피라미드 풀링 모듈(Atrous Pyramid Pooling Module) 단계(S30)를 통해 추출된 결과와 표준 데이터베이스에서 제공하는 결과 이미지를 비교하고, 비교 결과를 토대로 오차율을 줄이기 위해 가중치를 수정하는 변형된 확장 잔여 네트워크 역전파(Dilated Residual Network Backpropagation) 단계(S40)를 포함한다.
이때, 상기 아트로스 피라미드 풀링 모듈 단계(S30)는 아트로스 피라미드 풀링 모듈 단계(S30)에서 추출된 특징점 맵을 피라미드 형상으로 적층하고, 상기 피라미드 형상으로 형성된 특징점 맵을 1x1 컨볼루션을 적용하여 1채널의 특징점 맵으로 형성하는 과정을 포함한다.
또한, 본 발명의 다른 측면에 따른 AR에 적용 가능한 의미적인 분할 시스템은 영상 입력부, 분할 이미지 획득부, 특징점 추출부, 판단부 및 저장부를 포함한다. 상기 영상 입력부는 카메라와 같은 영상 장치를 통해 촬영된 이미지 정보 또는 표준 데이터베이스를 통해 이미지 정보를 입력받을 수 있다.
또한, 상기 분할 이미지 획득부는 영상 입력부를 통해 입력받은 이미지 정보에서 객체를 분류하고, 분류된 객체를 라벨링(Labeling) 하여 의미적인 분할(Semantic segmentation) 이미지를 획득한다.
또한, 상기 특징점 추출부는 확장 잔여 네트워크 모듈 및 아트로스 피라미드 풀링 모듈을 포함한다. 상기 확장 잔여 네트워크 모듈은 아트로스 컨볼루션(Atrous convolution)을 이용하여 상기 분할 이미지 획득부를 통해 획득된 이미지에서 특징점 맵(feature map)을 추출한다.
또한, 상기 아트로스 피라미드 풀링 모듈은 이미지에서 차지하는 영역이 작은 객체를 효과적으로 추출하기 위해 상기 확장 잔여 네트워크 모듈에서 추출된 특징점 맵에 따라 선택적으로 다양한 아트로스 컨볼루션(Atrous convolution)을 적용하고, 아트로스 컨볼루션을 병렬적으로 배치하여 특징점 맵을 추출한다.
또한, 상기 판단부는 아트로스 피라미드 풀링 모듈에서 추출된 결과와 미리 설정된 표준 데이터베이스에서 제공하는 결과 이미지를 비교하고, 비교 결과를 토대로 판단하여 오차율을 줄이기 위해 가중치를 수정한다.
이상에서 설명한 바와 같이, 본 발명에 따른 AR에 적용 가능한 의미적인 분할 방법 및 시스템은 이미지로부터 추출된 특징점 맵에 아트로스 컨볼루션을 적용하여 작은 객체를 효과적으로 추출하고, 영상 분석의 정확성을 향상할 수 있는 효과가 있다.
또한, 아트로스 컨볼루션을 병렬적으로 배치하여 특징점을 추출한 후 피라미드 형상으로 특징점 맵을 형성함으로써 영상 분석을 AR(Augmented Reality)에 적용하기 위한 의미적인 분할(Semantic segmentation)의 수행 속도를 향상시킬 수 있는 효과가 있다. 또한, 확장 잔여 네트워크 역전파(Dilated Residual Network Backpropagation)를 사용하여 의미적인 분할의 오차율을 줄이고 정확도를 향상시킬 수 있는 효과가 있다.
도 1은 본 발명의 실시 예에 따른 AR에 적용 가능한 의미적인 분할 방법을 나타내는 개념도이다.
도 2는 본 발명의 실시 예에 따른 AR에 적용 가능한 의미적인 분할 방법을 나타내는 순서도이다.
도 3은 의미적인 분할(Semantic segmentation) 이미지 획득과정을 나타내는 도면이다.
도 4는 파스칼(PASCAL) VOC 2012 데이터베이스의 이미지를 나타내는 도면이다.
도 5는 시티스케이프(Cityscape) 데이터베이스의 이미지를 나타내는 도면이다.
도 6은 본 발명의 실시 예에 따른 아트로스 컨볼루션(Atrous convolution)을 나타내는 도면이다.
도 7은 종래의 컨볼루션과 본 발명의 실시 예에 따른 아트로스 컨볼루션의 의미적인 분할 수행 결과를 나타내는 도면이다.
도 8은 본 발명의 실시 예에 따른 확장 잔여 네트워크(DRN)를 나타내는 도면이다.
도 9는 본 발명의 실시 예에 따른 아트로스 피라미드 풀링 모듈을 나타내는 도면이다.
도 10은 컨볼루션(Convolution)의 구조를 나타내는 도면이다.
도 11a 및 도 11b는 역전파(backpropagation) 과정의 카르파티(Karpathy) 계산 그래프를 나타내는 도면이다.
도 12는 본 발명의 실시 예에 따른 역전파 과정 이미지를 나타내는 도면이다.
도 13은 본 발명의 실시 예에 따른 AR에 적용 가능한 의미적인 분할 방법의 평가절차를 나타내는 흐름도이다.
도 14는 본 발명의 실시 예에 따른 AR에 적용 가능한 의미적인 분할 시스템을 나타내는 구성도이다.
아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시 예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면부호를 붙였다.
명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "…부", "…기", "…모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시 예를 설명함으로써, 본 발명을 상세히 설명한다.
각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.
도 1은 본 발명의 실시 예에 따른 AR(Augmented Reality)에 적용 가능한 의미적인 분할 방법을 나타내는 개념도이고, 도 2는 본 발명의 실시 예에 따른 AR에 적용 가능한 의미적인 분할 방법을 나타내는 순서도이다.
본 발명의 실시 예에 따른 AR에 적용 가능한 의미적인 분할(Semantic segmentation) 방법은 입력된 이미지에서 객체를 분류하고, 라벨링(Labeling) 하여 의미적인 분할 이미지를 획득하는 의미적인 분할(Semantic segmentation) 이미지 획득 단계(S10)와, 아트로스 컨볼루션(Atrous convolution)을 이용하여 획득된 이미지에서 특징점 맵(feature map)을 추출하는 변형된 확장 잔여 네트워크(DRN, Dilated Residual Network) 단계(S20)를 포함한다.
도 3은 의미적인 분할(Semantic segmentation) 이미지 획득과정을 나타내는 도면이고, 도 4는 파스칼(PASCAL) VOC 2012 데이터베이스의 이미지를 나타내는 도면이며, 도 5는 시티스케이프(Cityscape) 데이터베이스의 이미지를 나타내는 도면이다.
도 3과 같이 상기 의미적인 분할 이미지 획득 단계(S10)는 카메라와 같은 영상장치를 통해 이미지를 촬영하는 단계(S11)와, 촬영된 이미지로부터 객체를 검출하는 단계(S12)와, 검출된 객체를 토대로 라벨링(Labeling) 하여 분할(Segmentation) 이미지를 획득하는 단계(S13)를 포함할 수 있다.
한편, 본 발명의 실시 예에 따른 AR에 적용 가능한 의미적인 분할(Semantic segmentation) 방법에 대한 객관적인 평가를 위해 정규화된 표준 데이터베이스를 이용할 수 있다. 즉, 본 발명의 실시 예에 따른 AR에 적용 가능한 의미적인 분할 방법의 설명을 위해 정규화된 표준 데이터베이스를 이용한다.
예를 들어, 도 4의 파스칼(PASCAL) VOC 2012 데이터베이스와 도 5의 시티스케이프(Cityscape) 데이터베이스를 이용하여 이미지의 객체를 분류하고 라벨링(Labeling) 함으로써 의미적인 분할(Semantic segmentation) 이미지를 획득할 수 있다.
도 4의 파스칼(PASCAL) VOC 2012 데이터베이스는 비행기(aeroplane), 자전거(bicycle), 새(bird), 보트(boat), 병(bottle), 버스(bus), 자동차(car), 고양이(cat), 의자(chair), 소(cow), 식탁(dining table), 개(dog), 말(horse), 오토바이(motorbike), 사람(person), 화분(potted plant), 양(sheep), 소파(sofa), 열차(train), 티브/모니터(TV/monitor)와 같은 총 20개의 클래스(class)로 이루어지는 데이터베이스를 나타낸다.
또한, 도 5의 시티스케이프(Cityscape) 데이터베이스는 도시의 거리 장면 이미지로 구축하여 공개된 표준 데이터베이스이다. 즉, 상기 시티스케이프 데이터베이스는 50여 개의 도시에서 다양한 날과 시간대에 촬영한 이미지 데이터 셋으로, 30여 개의 클래스(class)를 가진 5000개의 이미지로 구성된다.
이때, 상기 의미적인 분할(Semantic segmentation) 이미지는 일관성을 유지하기 위해 동일한 크기로 조절하는 것이 바람직하다. 예를 들어, 상기 의미적인 분할 이미지들을 513x513의 크기로 조절할 수 있다.
도 6은 본 발명의 실시 예에 따른 아트로스 컨볼루션(Atrous convolution)을 나타내는 도면이다. 즉, 도 6의 도면 (a)는 비율(rate)의 크기 r=1일 때의 아트로스 컨볼루션(Atrous convolution)을 나타내는 도면이고, 도면 (b)는 비율(rate)의 크기 r=2일 때의 아트로스 컨볼루션(Atrous convolution)을 나타내는 도면이며, 도면 (c)는 비율(rate)의 크기 r=3일 때의 아트로스 컨볼루션(Atrous convolution)을 나타내는 도면이다.
도 6에서 도시된 바와 같이 상기 변형된 확장 잔여 네트워크(DRN, Dilated Residual Network) 단계(S20)는 컨볼루션(Convolution)을 변형하여 공간 정보를 최대한 유지하며 특징점을 추출하는 아트로스 컨볼루션(Atrous convolution)을 이용하여 원본 이미지에서 특징점 맵(feature map)을 추출한다.
상기 아트로스 컨볼루션(Atrous convolution) 구조는 웨이블릿(Wavelet) 분석의 영향을 받아 필터 내부에 제로 패딩(Zero padding)을 넣는 방법으로 가중치(Weight)의 개수를 늘리지 않고 윈도우(Window)의 크기를 늘린다.
이러한 아트로스 컨볼루션(Atrous convolution)은 종래의 컨볼루션에 비해 같은 연산량으로 큰 특징을 잡아낼 수 있으며, 다양한 확장 비율을 가진 아트로스 컨볼루션을 병렬적으로 사용하면 더 많은 공간 특징을 추출할 수 있다.
아래의 [수학식 1]은
Figure PCTKR2021001800-appb-I000001
이 1인 경우로 종래의 컨볼루션을 나타내는 수식이다. 또한, 아래의 [수학식 2]는
Figure PCTKR2021001800-appb-I000002
이 1보다 큰 경우로 아트로스 컨볼루션을 나타내는 수식이다.
[수학식 1]
Figure PCTKR2021001800-appb-I000003
[수학식 2]
Figure PCTKR2021001800-appb-I000004
여기에서, k는 커널(kernel)을 나타내고, s는 스트라이드(stride)를 나타낸다.
도 7은 종래의 컨볼루션과 본 발명의 실시 예에 따른 아트로스 컨볼루션의 의미적인 분할 수행 결과를 나타내는 도면이다. 종래의 컨볼루션 네트워크(Convolution network)를 사용하여 얻은 작은 특징점 맵으로 의미적인 분할을 수행하면 정확도가 감소한다.
도 7에서 도시된 바와 같이 다운 샘플링(down-sampling), 컨볼루션 및 업 샘플링(up-sampling)을 거쳐 의미적인 분할(Semantic segmentation)을 수행하는 상단 이미지와, 아트로스 컨볼루션(Atrous convolution)을 통해 의미적인 분할을 수행하는 하단 이미지의 차이를 확인할 수 있다.
도 7에서 종래의 컨볼루션에 대한 상단의 이미지를 보면 공간적 정보의 손실이 있는 상태에서 업 샘플링(up-sampling)을 하면서 의미적인 분할(Semantic segmentation)의 해상도가 떨어지는 것을 볼 수 있다.
하지만, 도 7에서 아트로스 컨볼루션(Atrous convolution)을 수행하는 하단의 이미지를 보면 리셉티브 필드(receptive field)를 크게 가져가면서 컨볼루션을 함으로써 공간적 정보의 손실을 최소화하면서 해상도는 큰 결과를 얻게 된다.
따라서, 본 발명의 실시 예에 따른 AR에 적용 가능한 의미적인 분할 방법은 아트로스 컨볼루션(Atrous convolution)을 이용하여 빈 가중치로 커널을 확장함으로써 네트워크는 풀링(pooling) 함수에 의존하지 않고 장거리 피처를 학습하며, 풀링(pooling)이 없이도 네트워크는 더 많은 높은 공간 빈도의 세부요소들을 유지할 수 있다.
도 8은 본 발명의 실시 예에 따른 확장 잔여 네트워크(DRN, Dilated Residual Network)를 나타내는 도면이고, 도 9는 본 발명의 실시 예에 따른 아트로스 피라미드 풀링 모듈(Atrous pyramid pooling module)을 나타내는 도면이다.
즉, 도 8은 잔여 네트워크(Residual network) 101단을 DRN의 원리를 적용하여 변형하고, 변형한 DRN을 이용하여 특징점 맵을 추출하는 도면이다. 아래의 [표 1]은 본 발명의 실시 예에 따른 DRN의 구조를 나타낸다.
[표 1] DRN(Dilated Residual Network)의 구조 표
Figure PCTKR2021001800-appb-I000005
본 발명의 실시 예에 따른 DRN은 입력 이미지에서 전체 이미지에 대한 공간영역의 특징을 최대한 보존하면서 중요한 특징만 추출해 특징점 맵을 생성한다.
또한, 본 발명의 실시 예에 따른 AR에 적용 가능한 의미적인 분할(Semantic segmentation) 방법은 이미지에서 차지하는 영역이 작은 객체를 효과적으로 추출하기 위해 상기 추출된 특징점 맵에 따라 선택적으로 다양한 아트로스 컨볼루션(Atrous convolution)을 적용하고, 아트로스 컨볼루션을 병렬적으로 배치하여 특징점을 추출한 후 피라미드 형상으로 특징점 맵을 형성하는 아트로스 피라미드 풀링 모듈(Atrous Pyramid Pooling Module) 단계(S30)와, 상기 아트로스 피라미드 풀링 모듈(Atrous Pyramid Pooling Module) 단계(S30)를 통해 추출된 결과와 표준 데이터베이스에서 제공하는 결과 이미지를 비교하고, 비교 결과를 토대로 오차율을 줄이기 위해 가중치를 수정하는 변형된 확장 잔여 네트워크 역전파(Dilated Residual Network Backpropagation) 단계(S40)를 포함한다.
의미적인 분할(Semantic segmentation)에서 정확도를 높이기 위해서는 작은 객체도 정확하게 추출하는 것이 중요하다. 하지만, 종래의 의미적인 분할(Semantic segmentation) 분야에서 작은 객체가 복잡하게 배치된 경우는 세그맨테이션(Segmentation)에 많은 어려움을 겪는다.
따라서, 본 발명의 실시 예에 따른 AR에 적용 가능한 의미적인 분할 방법은 이러한 문제점을 해결하기 위해 PSPNet(Pyramid Scene Parsing Network)의 피라미드 센스 풀링(Pyramid sense pooling)에서 변형을 주어 적용한다.
예를 들어, 도 9와 같이 DRN을 통해 얻은 28x28 크기의 특징점 맵에 5가지의 아트로스 컨볼루션을 병렬적으로 적용하여 특징점 맵을 추출할 수 있다. 여기에서 적용하는 아트로스 컨볼루션은 비율(rate) 1을 적용한 일반적인 컨볼루션과 비율(rate)을 3, 6, 9로 적용한 아트로스 컨볼루션과, 마지막은 상기 변형된 확장 잔여 네트워크(DRN) 단계(S20)에서 추출된 특징점 맵에 이미지 풀링을 적용한다.
그 후 도 9와 같이 추출한 5가지 특징점 맵을 피라미드 형태로 쌓고, 1x1 컨볼루션을 적용하여 1채널 특징점 맵을 추출한다.
이와 같이, 상기 아트로스 피라미드 풀링 모듈(Atrous Pyramid Pooling Module) 단계(S30)는 이미지에서 차지하는 영역이 작은 객체를 효과적으로 추출하기 위해 상기 변형된 확장 잔여 네트워크(DRN, Dilated Residual Network) 단계(S20)에서 추출된 특징점 맵에 다양한 아트로스 컨볼루션(Atrous convolution)을 적용한다.
또한, 상기 아트로스 피라미드 풀링 모듈(Atrous Pyramid Pooling Module) 단계(S30)는 소요시간을 줄이기 위해 아트로스 컨볼루션(Atrous convolution)을 병렬적으로 배치하여 특징점을 추출한 후 피라미드 모양으로 특징점 맵을 쌓는다.
이때, 미리 설정된 기준치 이하로 크기가 작은 특징점 맵은 업샘플링(Up-sampling)을 통해 크기를 동일하게 맞추어 쌓는 것이 바람직하다. 또한, 다양한 특징점 맵을 피라미드 모양으로 쌓으면 1x1 컨볼루션(Convolution)을 적용하여 1채널의 특징점 맵을 생성한다.
또한, 상기 변형된 확장 잔여 네트워크 역전파 단계(S40)는 상기 아트로스 피라미드 풀링 모듈(Atrous Pyramid Pooling Module)에서 추출된 최종 특징점 맵에서 컨볼루션을 통해 얻은 의미적인 분할(Semantic segmentation)을 데이터베이스에서 제공하는 결과 이미지와 비교하여 미리 설정된 일정 값 이상 오차율이 발생하면, 상기 변형된 확장 잔여 네트워크(DRN) 단계(S20)에서 수행하는 컨볼루션에 적용하여 가중치를 수정하고 오차율을 줄인다.
일반적으로 CNN(Convolutional Neural Network)은 필터가 입력데이터를 슬라이딩하면서 지역적 특징(feature)을 추출하여 최대값(max pooling)이나 평균값(average pooling)으로 압축하여 다음 레이어로 전송한다. 이러한 과정을 반복하는 것이 CNN의 일반적인 구조이다.
도 10은 컨볼루션(Convolution)의 구조를 나타내는 도면이고, 도 11a 및 도 11b는 역전파(backpropagation) 과정의 카르파티(Karpathy) 계산 그래프를 나타내는 도면이다. 즉, 도 11a는 도 10의 컨볼루션 구조를 바탕으로
Figure PCTKR2021001800-appb-I000006
에 대한 역전파 과정을 나타내는 도면이고, 도 11b는 도 10의 컨볼루션 구조를 바탕으로
Figure PCTKR2021001800-appb-I000007
에 대한 역전파 과정을 나타내는 도면이다.
도 10에서 입력값은 5x5 행렬이고,
Figure PCTKR2021001800-appb-I000008
는 각각 입력값의 i번째 행, j번째 열의 요소를 나타낸다. 이때, 해당 입력값에 필터의 크기가 3x3인 컨볼루션을 수행하면, 출력값은 2x2의 크기를 갖는다. 예를 들어, 도 10에서
Figure PCTKR2021001800-appb-I000009
의 값은
Figure PCTKR2021001800-appb-I000010
의 합성곱으로 출력된다.
또한, 도 11a에서 도시된 바와 같이
Figure PCTKR2021001800-appb-I000011
은 포워드(forward) 과정에서 3x3 필터의
Figure PCTKR2021001800-appb-I000012
가중치하고만 합성곱이 수행되기 때문에 역전파도 한 번만 진행된다. 이때,
Figure PCTKR2021001800-appb-I000013
의 기울기는 흘러들어온 기울기
Figure PCTKR2021001800-appb-I000014
에 상대방의 변화량을 나타내는 로컬 그래디언트(
Figure PCTKR2021001800-appb-I000015
)을 곱해서 구할 수 있다.
마찬가지로,
Figure PCTKR2021001800-appb-I000016
의 그래디언트는 흘러들어온 그래디언트
Figure PCTKR2021001800-appb-I000017
에 로컬 그래디언트(
Figure PCTKR2021001800-appb-I000018
)를 곱해 계산할 수 있다. 또한, 도 11b에서 도시된 바와 같이 상기
Figure PCTKR2021001800-appb-I000019
과 동일한 방식으로
Figure PCTKR2021001800-appb-I000020
에 대한 역전파를 계산할 수 있다.
도 12는 본 발명의 실시 예에 따른 역전파 과정 이미지를 나타내는 도면이다. 상기 도 11a 및 도 11b와 같이 역전파 방식을 일일이 대입하기에는 어려움이 많다.
따라서, 도 12의 역전파 과정 이미지를 활용하여 간단하게 그래디언트를 구할 수 있다. 즉, 컨볼루션 레이어(convolution layer)를 만들 때 사용하는 필터의 요소를 정반대로 바꿔서 그래디언트 행렬에 합성곱을 수행하면 입력 벡터에 대한 그래디언트를 구할 수 있다.
예를 들어,
Figure PCTKR2021001800-appb-I000021
의 그래디언트는 도 12의 좌측 상단을 참고로 아래의 [수학식 1]을 이용하여 구할 수 있다.
[수학식 1]
Figure PCTKR2021001800-appb-I000022
또한, 필터의 그래디언트는 흘러들어온 그래디언트 행렬의 첫 번째 요소인
Figure PCTKR2021001800-appb-I000023
Figure PCTKR2021001800-appb-I000024
와 연결되어 있기에 필터의 그래디언트는 흘러들어온 그래디언트(
Figure PCTKR2021001800-appb-I000025
)에 로컬 그래디언트를 곱해서 구할 수 있다.
따라서,
Figure PCTKR2021001800-appb-I000026
의 그래디언트는 아래의 [수학식 2]와 같이 구할 수 있다.
[수학식 2]
Figure PCTKR2021001800-appb-I000027
입력이미지와 변형된 DRN(Dilated Residual Network)을 적용하여 나온 결과를 비교하여 역전파를 진행하지만, 아트로스 피라미드 풀링 모듈(320)을 거쳐 얻은 결과가 실제 정확도에 영향을 줄 수 있다.
따라서, 상기 변형된 확장 잔여 네트워크 역전파(Dilated Residual Network Backpropagation) 단계(S40)는 도 1과 같이 아트로스 피라미드 풀링 모듈(320)을 통해 얻은 결과를 표준 데이터베이스에서 제공한 참값과 비교하고, 미리 설정된 해당 오차율을 사용하여 변형된 확장 잔여 네트워크 역전파(Dilated Residual Network Backpropagation)를 수행한다.
도 13은 본 발명의 실시 예에 따른 AR에 적용 가능한 의미적인 분할 방법의 평가절차를 나타내는 흐름도이다. 도 13과 같은 과정을 통해 본 발명의 AR에 적용 가능한 의미적인 분할 방법의 인식 횟수에 따른 인식에 걸리는 시간(소요시간)과 예측된 경계 상자와 실제 참값(ground truth) 경계 상자의 교차율(정확도)을 평가할 수 있다.
도 13에서 도시된 바와 같이 학습 과정에서 변형된 DRN(Dilated Residual Network), 아트로스 피라미드 풀링 모듈(Atrous pyramid pooling module)을 적용하여 파스칼(PASCAL) VOC 2012 데이터베이스와 시티스케이프(Cityscape) 데이터베이스와 같은 정규화된 표준 데이터베이스를 학습시킨다.
또한, 수행 과정에서는 종래에 학습된 데이터를 기반으로 의미적인 분할(Semantic segmentation)을 수행한다.
이때, 정확도와 소요시간을 평가하기 위하여 실험에 사용된 파스칼(PASCAL) VOC 2012 데이터베이스의 이미지는 513x513 크기로 조절하여 사용한다. 또한, 본 발명의 실시 예에 따른 AR에 적용 가능한 의미적인 분할 방법의 객관적인 신뢰도를 평가하기 위하여 2018년에 Liang-Chieh Chen 외 4명이 발표한 "Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation"과 정확도를 비교한다.
아래의 [표 2]는 본 발명의 실시 예에 따른 AR에 적용 가능한 의미적인 분할 방법과 다른 논문들에 대한 파스칼(PASCAL) VOC 2012 데이터베이스 정확도를 비교한 결과를 나타낸다.
[표 2] Comparison of Semantic Segmentation Techniques and Other Papers with PASCAL VOC 2012 Database Accuracy
Figure PCTKR2021001800-appb-I000028
즉, 상기 [표 2]는 Liang-Chieh Chen 외 4명이 발표한 "Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation"이 동일한 환경에서 다른 논문에서 발표한 기법들과 비교 평가한 정확도 결과를 바탕으로, 본 발명의 실시 예에 따른 AR에 적용 가능한 의미적인 분할 방법과 비교한 정확도 결과를 나타낸다.
상기 [표 2]에서 나타난 바와 같이 본 발명의 실시 예에 따른 AR에 적용 가능한 의미적인 분할 방법의 결과가 다른 논문에서 발표한 기법들보다 높은 정확도를 나타낸다. Liang-Chieh Chen 외 4명이 발표한 "Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation"에서 발표한 DeepLabv3+ 기법은 의미적인 분할(Semantic segmentation) 기법을 수행하면서 순(forward) 방향만 고려할 뿐 역전파(backpropagation)를 수행하지 않아 정확도가 떨어진다.
그러나 본 발명의 실시 예에 따른 AR에 적용 가능한 의미적인 분할 방법은 최종 이미지에서 측정지수인 mIOU가 일정값 이상 나오지 않으면 역전파(backpropagation)를 수행한다.
아래의 [표 3]은 파스칼(PASCAL) VOC 2012 데이터베이스의 전체 이미지에 대한 의미적인 분할의 소요시간을 나타낸다.
[표 3] Duration of semantic segmentation for images in PASCAL VOC 2012 database
Figure PCTKR2021001800-appb-I000029
상기 [표 3]과 같이 파스칼(PASCAL) VOC 2012 데이터베이스의 이미지를 입력으로 의미적인 분할을 수행하여 걸리는 시간을 측정한다. [표 3]에서 나타난 바와 같이 본 발명의 실시 예에 따른 AR에 적용 가능한 의미적인 분할 방법이 파스칼(PASCAL) VOC 2012 데이터베이스의 전체 이미지를 대상으로 1초에 의미적인 분할을 수행한 이미지의 개수로 소요시간을 측정한 초당 프레임은 64.3(FPS)의 결과를 나타낸다.
따라서, 초당 프레임(FPS)이 60(FPS) 이상으로 나타났기 때문에 사람의 움직임 속도를 따라가는 AR 분야에 적용 가능함을 확인할 수 있다.
한편, 본 발명의 실시 예에 따른 AR에 적용 가능한 의미적인 분할 방법의 객관적인 신뢰도를 평가하기 위하여 2018년에 Liang-Chieh Chen 외 4명이 발표한 "Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation"과 비교한다.
이때, 정확도를 평가하기 위하여 실험에 사용된 시티스케이프(Cityscape) 데이터베이스의 이미지는 파스칼(PASCAL) VOC 2012 데이터베이스의 이미지와 같이 513x513 크기로 조절하여 사용한다.
아래의 [표 4]는 본 발명의 실시 예에 따른 AR에 적용 가능한 의미적인 분할 방법과 다른 논문들에 대한 시티스케이프(Cityscape) 데이터베이스 정확도의 비교 결과를 나타낸다.
[표 4] Comparison of Semantic Segmentation Techniques and Other Papers with Cityscapes Database Accuracy
Figure PCTKR2021001800-appb-I000030
즉, 상기 [표 4]는 Liang-Chieh Chen 외 4명이 발표한 "Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation"이 동일한 환경에서 다른 논문에서 발표한 기법들과 비교 평가한 결과를 바탕으로, 본 발명의 실시 예에 따른 AR에 적용 가능한 의미적인 분할 방법과 비교한 결과를 나타낸다.
상기 [표 4]에서 나타난 바와 같이 본 발명의 실시 예에 따른 AR에 적용 가능한 의미적인 분할 방법의 결과가 다른 논문에서 발표한 기법의 결과들에 비해 높은 정확도를 나타낸다. Liang-Chieh Chen 외 4명이 발표한 "Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation"의 DeepLabv3+ 기법은 의미적인 분할 기법을 수행함에 있어서 순(forward) 방향만 고려할 뿐 역전파(backpropagation)를 수행하지 않아 정확도가 떨어진다.
그러나 본 발명의 실시 예에 따른 AR에 적용 가능한 의미적인 분할 방법은 최종 이미지에서 측정지수인 mIOU가 일정값 이상 나오지 않으면 역전파(backpropagation)를 수행함으로써 다른 논문에서 발표한 기법들보다 우수한 정확도를 나타낸다.
아래의 [표 5]는 시티스케이프(Cityscape) 데이터베이스의 전체 이미지에 대한 의미적인 분할의 소요시간을 나타낸다.
[표 5] Duration of semantic segmentation for images in Cityscapes database
Figure PCTKR2021001800-appb-I000031
상기 [표 5]와 같이 시티스케이프(Cityscape) 데이터베이스의 이미지를 입력으로 의미적인 분할을 수행하여 걸리는 시간을 측정한다. [표 5]에서 나타난 바와 같이 본 발명의 실시 예에 따른 AR에 적용 가능한 의미적인 분할 방법이 시티스케이프(Cityscape) 데이터베이스를 대상으로 1초에 의미적인 분할을 수행한 이미지의 개수로 소요시간을 측정한 초당 프레임은 61(FPS)의 결과를 나타낸다.
따라서, 초당 프레임(FPS)이 60(FPS) 이상으로 나타났기 때문에 사람의 움직임 속도를 따라가는 AR 분야에 적용 가능함을 확인할 수 있다.
도 14는 본 발명의 실시 예에 따른 AR에 적용 가능한 의미적인 분할 시스템을 나타내는 구성도이다. 본 발명의 실시 예에 따른 AR에 적용 가능한 의미적인 분할 시스템(10)은 영상 입력부(100), 분할 이미지 획득부(200), 특징점 추출부(300), 판단부(400) 및 저장부(500)를 포함할 수 있다.
영상 입력부(100)는 이미지 정보를 입력받을 수 있다. 즉, 영상 입력부(100)는 카메라와 같은 영상 장치를 통해 촬영된 이미지 정보나, 또는 표준 데이터베이스를 통해 이미지 정보를 입력받을 수 있다.
상기 표준 데이터베이스에는 파스칼(PASCAL) VOC 2012 데이터베이스와, 시티스케이프(Cityscape) 데이터베이스가 포함될 수 있다.
분할 이미지 획득부(200)는 영상 입력부(100)를 통해 입력받은 이미지 정보에서 객체를 분류하고, 분류된 객체를 라벨링(Labeling) 하여 의미적인 분할(Semantic segmentation) 이미지를 획득한다.
또한, 특징점 추출부(300)는 확장 잔여 네트워크 모듈(310) 및 아트로스 피라미드 풀링 모듈(320)를 포함한다. 확장 잔여 네트워크 모듈(310)은 아트로스 컨볼루션(Atrous convolution)을 이용하여 분할 이미지 획득부(200)를 통해 획득된 이미지에서 특징점 맵(feature map)을 추출한다.
또한, 아트로스 피라미드 풀링 모듈(320)은 이미지에서 차지하는 영역이 작은 객체를 효과적으로 추출하기 위해 확장 잔여 네트워크 모듈(310)에서 추출된 특징점 맵에 따라 선택적으로 다양한 아트로스 컨볼루션(Atrous convolution)을 적용하고, 아트로스 컨볼루션을 병렬적으로 배치하여 특징점 맵을 추출한다.
또한, 판단부(400)는 아트로스 피라미드 풀링 모듈(320)에서 추출된 결과와 미리 설정된 표준 데이터베이스에서 제공하는 결과 이미지를 비교한다. 또한, 판단부(400)는 비교 결과를 토대로 판단하여 오차율을 줄이기 위해 가중치를 수정한다.
즉, 판단부(400)는 이미지의 비교 결과 미리 설정된 오차 기준값 이상의 오차율이 발생하면 확장 잔여 네트워크 모듈(310)에서 수행하는 아트로스 컨볼루션(Atrous convolution)의 가중치를 수정하여 이미지의 특징점 맵(feature map)을 다시 추출한다.
또한, 저장부(500)는 영상 입력부(100)를 통해 입력받은 이미지 정보 또는 표준 데이터베이스를 저장할 수 있다. 또한, 저장부(500)는 특징점 추출부(300)를 통해 추출된 특징점 맵을 저장한다.
이와 같이, 본 발명의 실시 예에 따른 AR에 적용 가능한 의미적인 분할 방법 및 시스템은 추출된 특징점 맵에 아트로스 컨볼루션을 적용하여 작은 객체를 효과적으로 추출할 수 있다. 또한, 아트로스 컨볼루션을 병렬적으로 배치하여 특징점을 추출한 후 피라미드 형상으로 특징점 맵을 형성함으로써 소요시간을 줄일 수 있다.
또한, 확장 잔여 네트워크 역전파(Dilated Residual Network Backpropagation)를 사용하여 오차율을 줄이고 정확도를 향상시킬 수 있다.
이상으로 본 발명에 관한 바람직한 실시 예를 설명하였으나, 본 발명은 상기 실시 예에 한정되지 아니하며, 본 발명의 실시 예로부터 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의한 용이하게 변경되어 균등하다고 인정되는 범위의 모든 변경을 포함한다.
[부호의 설명]
10 : 의미적인 분할 시스템
100 : 영상 입력부 200 : 분할 이미지 획득부
300 : 특징점 추출부 310 : 확장 잔여 네트워크 모듈
320 : 아트로스 피라미드 풀링 모듈
400 : 판단부 500 : 저장부

Claims (7)

  1. 입력된 이미지에서 객체를 분류하고, 라벨링(Labeling) 하여 의미적인 분할 이미지를 획득하는 의미적인 분할(Semantic segmentation) 이미지 획득 단계(S10);
    아트로스 컨볼루션(Atrous convolution)을 이용하여 획득된 이미지에서 특징점 맵(feature map)을 추출하는 변형된 확장 잔여 네트워크(DRN, Dilated Residual Network) 단계(S20); 및
    이미지에서 차지하는 영역이 작은 객체를 효과적으로 추출하기 위해 추출된 특징점 맵에 따라 선택적으로 다양한 아트로스 컨볼루션(Atrous convolution)을 적용하고, 아트로스 컨볼루션을 병렬적으로 배치하여 특징점 맵을 추출하는 아트로스 피라미드 풀링 모듈(Atrous Pyramid Pooling Module) 단계(S30)를 포함하는 AR에 적용 가능한 의미적인 분할 방법.
  2. 제1항에 있어서,
    상기 아트로스 피라미드 풀링 모듈 단계(S30)를 통해 추출된 결과와 미리 설정된 표준 데이터베이스에서 제공하는 결과 이미지를 비교하고, 비교 결과를 토대로 판단하여 오차율을 줄이기 위해 가중치를 수정하는 변형된 확장 잔여 네트워크 역전파(Dilated Residual Network Backpropagation) 단계(S40)를 더 포함하는 AR에 적용 가능한 의미적인 분할 방법.
  3. 제1항에 있어서,
    상기 아트로스 피라미드 풀링 모듈 단계(S30)는 아트로스 피라미드 풀링 모듈 단계(S30)에서 추출된 특징점 맵을 피라미드 형상으로 적층하고,
    상기 피라미드 형상으로 형성된 특징점 맵을 1x1 컨볼루션을 적용하여 1채널의 특징점 맵으로 형성하는 것을 특징으로 하는 AR에 적용 가능한 의미적인 분할 방법.
  4. 제3항에 있어서,
    미리 설정된 기준치 이하로 크기가 작은 특징점 맵은 업샘플링(up-sampling)을 통해 크기를 동일하게 조절하는 것을 특징으로 하는 AR에 적용 가능한 의미적인 분할 방법.
  5. 제1항에 있어서,
    상기 변형된 확장 잔여 네트워크(DRN) 단계(S20)는 공간 정보를 최대한 유지하며 특징점을 추출하는 아트로스 컨볼루션(Atrous convolution)을 이용하여 획득된 이미지에서 전체 이미지에 대한 공간영역의 특징을 최대한 보존하면서 중요한 특징만 추출해 특징점 맵(feature map)을 추출하는 것을 특징으로 하는 AR에 적용 가능한 의미적인 분할 방법.
  6. 이미지 정보를 입력받는 영상 입력부;
    상기 영상 입력부를 통해 입력받은 이미지 정보에서 객체를 분류하고, 분류된 객체를 라벨링(Labeling) 하여 의미적인 분할(Semantic segmentation) 이미지를 획득하는 분할 이미지 획득부;
    아트로스 컨볼루션(Atrous convolution)을 이용하여 상기 분할 이미지 획득부를 통해 획득된 이미지에서 특징점 맵(feature map)을 추출하는 확장 잔여 네트워크 모듈;
    이미지에서 차지하는 영역이 작은 객체를 효과적으로 추출하기 위해 상기 확장 잔여 네트워크 모듈에서 추출된 특징점 맵에 따라 선택적으로 다양한 아트로스 컨볼루션(Atrous convolution)을 적용하고, 아트로스 컨볼루션을 병렬적으로 배치하여 특징점 맵을 추출하는 아트로스 피라미드 풀링 모듈; 및
    상기 아트로스 피라미드 풀링 모듈에서 추출된 결과와 미리 설정된 표준 데이터베이스에서 제공하는 결과 이미지를 비교하고, 비교 결과를 토대로 판단하여 오차율을 줄이기 위해 가중치를 수정하는 판단부를 포함하는 AR에 적용 가능한 의미적인 분할 시스템.
  7. 제6항에 있어서,
    상기 판단부는 이미지의 비교 결과 미리 설정된 오차 기준값 이상의 오차율이 발생하면 상기 확장 잔여 네트워크 모듈에서 수행하는 아트로스 컨볼루션(Atrous convolution)의 가중치를 수정하여 이미지의 특징점 맵(feature map)을 다시 추출하는 것을 특징으로 하는 AR에 적용 가능한 의미적인 분할 시스템.
PCT/KR2021/001800 2020-03-31 2021-02-10 Ar에 적용 가능한 의미적인 분할 방법 및 시스템 WO2021201422A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020200039310A KR102167808B1 (ko) 2020-03-31 2020-03-31 Ar에 적용 가능한 의미적인 분할 방법 및 시스템
KR10-2020-0039310 2020-03-31

Publications (1)

Publication Number Publication Date
WO2021201422A1 true WO2021201422A1 (ko) 2021-10-07

Family

ID=73025309

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2021/001800 WO2021201422A1 (ko) 2020-03-31 2021-02-10 Ar에 적용 가능한 의미적인 분할 방법 및 시스템

Country Status (2)

Country Link
KR (1) KR102167808B1 (ko)
WO (1) WO2021201422A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115132231A (zh) * 2022-08-31 2022-09-30 安徽讯飞寰语科技有限公司 语音活性检测方法、装置、设备及可读存储介质

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102167808B1 (ko) * 2020-03-31 2020-10-20 한밭대학교 산학협력단 Ar에 적용 가능한 의미적인 분할 방법 및 시스템
CN112287940A (zh) * 2020-10-30 2021-01-29 西安工程大学 一种基于深度学习的注意力机制的语义分割的方法
CN112949829A (zh) * 2021-03-05 2021-06-11 深圳海翼智新科技有限公司 特征图的池化方法、数据处理方法和计算设备
US20230394628A1 (en) * 2021-04-22 2023-12-07 Seoul National University R&Db Foundation Method and apparatus for reconstructing face image by using video identity clarification network
CN113269794A (zh) * 2021-05-27 2021-08-17 中山大学孙逸仙纪念医院 一种图像区域分割方法、装置、终端设备及存储介质
CN113808140B (zh) * 2021-09-24 2024-04-09 昆明理工大学 一种间隙区域感知的铝硅合金显微图像分割方法
KR102482262B1 (ko) 2021-10-12 2022-12-28 주식회사 테스트웍스 객체 분할과 배경 합성을 이용한 데이터 증강 장치 및 방법

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180023011A (ko) * 2015-11-05 2018-03-06 구글 엘엘씨 에지-인식 양방향 이미지 프로세싱
KR20190034021A (ko) * 2017-09-22 2019-04-01 삼성전자주식회사 객체를 인식하는 방법 및 장치
KR20190112378A (ko) * 2018-03-26 2019-10-07 삼성전자주식회사 영상 분할 방법, 영상 분할 장치, 및 영상 분할을 위한 학습 방법
KR20190128190A (ko) * 2017-03-17 2019-11-15 매직 립, 인코포레이티드 룸 레이아웃 추정 방법들 및 기술들
KR102167808B1 (ko) * 2020-03-31 2020-10-20 한밭대학교 산학협력단 Ar에 적용 가능한 의미적인 분할 방법 및 시스템

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102413043B1 (ko) 2017-09-22 2022-06-24 한국전자통신연구원 영상 컨텐츠의 샷 분할 방법 및 장치

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180023011A (ko) * 2015-11-05 2018-03-06 구글 엘엘씨 에지-인식 양방향 이미지 프로세싱
KR20190128190A (ko) * 2017-03-17 2019-11-15 매직 립, 인코포레이티드 룸 레이아웃 추정 방법들 및 기술들
KR20190034021A (ko) * 2017-09-22 2019-04-01 삼성전자주식회사 객체를 인식하는 방법 및 장치
KR20190112378A (ko) * 2018-03-26 2019-10-07 삼성전자주식회사 영상 분할 방법, 영상 분할 장치, 및 영상 분할을 위한 학습 방법
KR102167808B1 (ko) * 2020-03-31 2020-10-20 한밭대학교 산학협력단 Ar에 적용 가능한 의미적인 분할 방법 및 시스템

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
GO TAE-YOUNG: "A Study on the Semantic Segmentation Technique applicable to AR", MASTER'S THESIS, HANBAT NATIONAL UNIVERSITY, 1 February 2020 (2020-02-01), XP055853887 *
HAN, MYUNGKYU: "Multi-Scale Atrous Spatial Pyramid Pooling for Larger and Denser receptive field in Semantic Segmentation", MASTER'S THESIS, HANYANG UNIVERSITY, February 2019 (2019-02-01), pages 1 - 49, XP055853880 *
KO TAE-YOUNG, LEE SEUNG-HO: "Novel Method of Semantic Segmentation Applicable to Augmented Reality", SENSORS, vol. 20, no. 6, pages 1737, XP055853882, DOI: 10.3390/s20061737 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115132231A (zh) * 2022-08-31 2022-09-30 安徽讯飞寰语科技有限公司 语音活性检测方法、装置、设备及可读存储介质

Also Published As

Publication number Publication date
KR102167808B1 (ko) 2020-10-20

Similar Documents

Publication Publication Date Title
WO2021201422A1 (ko) Ar에 적용 가능한 의미적인 분할 방법 및 시스템
WO2020040391A1 (ko) 결합심층네트워크에 기반한 보행자 인식 및 속성 추출 시스템
WO2021230457A1 (en) Learning method and learning device for training an object detection network by using attention maps and testing method and testing device using the same
WO2020196985A1 (ko) 비디오 행동 인식 및 행동 구간 탐지 장치 및 방법
WO2020116768A1 (ko) 영상 처리 장치 및 그 동작방법
WO2015115681A1 (ko) 표정 동작사전을 이용한 표정인식 방법 및 장치
WO2017164478A1 (ko) 미세 얼굴 다이나믹의 딥 러닝 분석을 통한 미세 표정 인식 방법 및 장치
CN111814661A (zh) 基于残差-循环神经网络的人体行为识别方法
WO2019098538A1 (en) Device and method for processing convolution operation using kernel
WO2019050297A1 (ko) 뉴럴 네트워크 학습 방법 및 장치
WO2019235828A1 (ko) 투 페이스 질병 진단 시스템 및 그 방법
WO2022045495A1 (en) Methods for depth map reconstruction and electronic computing device for implementing the same
WO2021010671A9 (ko) 뉴럴 네트워크 및 비국소적 블록을 이용하여 세그멘테이션을 수행하는 질병 진단 시스템 및 방법
WO2022146050A1 (ko) 우울증 진단을 위한 인공지능 연합학습 방법 및 시스템
CN116895098A (zh) 基于深度学习和隐私保护的视频人体动作识别系统与方法
WO2021230574A1 (en) Learning method and learning device for updating object detector, based on deep learning, of autonomous vehicle to adapt the object detector to driving circumstance, and updating method and updating device using the same
US20230186490A1 (en) Learning apparatus, learning method and learning program
WO2023167530A1 (en) Method for classifying images using novel classes
WO2023068441A1 (ko) 딥러닝을 이용한 행동 인식 방법 및 그 장치
WO2023210914A1 (en) Method for knowledge distillation and model generation
WO2023113437A1 (ko) 메모리를 이용하는 의미론적 영상 분할 장치 및 방법
WO2023096011A1 (ko) 제로샷 시맨틱 분할 장치 및 방법
WO2019198900A1 (en) Electronic apparatus and control method thereof
Hassan et al. Intelligent sign language recognition using enhanced fourier descriptor: a case of Hausa sign language
WO2018084473A1 (ko) 신경망 학습에 기반한 입력 처리 방법 및 이를 위한 장치

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21781422

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21781422

Country of ref document: EP

Kind code of ref document: A1