WO2021201422A1

WO2021201422A1 - Ar에 적용 가능한 의미적인 분할 방법 및 시스템

Info

Publication number: WO2021201422A1
Application number: PCT/KR2021/001800
Authority: WO
Inventors: 이승호; 고태영
Original assignee: 한밭대학교 산학협력단
Priority date: 2020-03-31
Filing date: 2021-02-10
Publication date: 2021-10-07
Also published as: KR102167808B1

Abstract

본 발명은 영상 분석을 AR(Augmented Reality)에 적용하기 위해 영상 분석의 수행 속도와 정확성을 향상시키는 AR에 적용 가능한 의미적인 분할 방법 및 시스템에 관한 것이다. 본 발명에 따른 AR에 적용 가능한 의미적인 분할 방법은 입력된 이미지에서 객체를 분류하고, 라벨링(Labeling) 하여 의미적인 분할 이미지를 획득하는 의미적인 분할(Semantic segmentation) 이미지 획득 단계(S10)와, 아트로스 컨볼루션(Atrous convolution)을 이용하여 획득된 이미지에서 특징점 맵(feature map)을 추출하는 변형된 확장 잔여 네트워크(DRN, Dilated Residual Network) 단계(S20) 및 이미지에서 차지하는 영역이 작은 객체를 효과적으로 추출하기 위해 상기 추출된 특징점 맵에 따라 선택적으로 다양한 아트로스 컨볼루션(Atrous convolution)을 적용하고, 아트로스 컨볼루션을 병렬적으로 배치하여 특징점을 추출한 후 피라미드 형상으로 특징점 맵을 형성하는 아트로스 피라미드 풀링 모듈(Atrous Pyramid Pooling Module) 단계(S30)를 포함한다.

Description

AR에 적용 가능한 의미적인 분할 방법 및 시스템

본 발명은 AR에 적용 가능한 의미적인 분할 방법 및 시스템에 관한 것으로서, 더욱 상세하게는 영상 분석을 AR(Augmented Reality)에 적용하기 위해 영상 분석의 수행 속도와 정확성을 향상시키는 AR에 적용 가능한 의미적인 분할 방법 및 시스템에 관한 것이다.

4차 산업혁명 이후 인공지능 및 로봇 개발이 가속화되면서 인간처럼 생각하는 분야의 연구가 확대되고 있다. 따라서 가상 및 증강 현실 시스템, 자율 주행, 의료 로봇, 드론 등 실시간으로 움직이며 판단하고 동작을 수행하는 연구에 관심이 늘어나고 있다.

이러한 연구의 바탕에는 사람의 눈을 대신하는 카메라를 통해 들어오는 영상을 분석하는 연구가 기초가 된다. 영상을 분석하는 연구에서 각 픽셀이 어떤 클래스에 해당하는지 레이블링을 수행하는 의미적인 분할(Semantic segmentation)에 관한 연구는 기본 과제이다.

상기 의미적인 분할(Semantic segmentation)은 미리 학습된 클래스에 대하여 영상을 픽셀별로 나누는 기법으로 단순히 사진을 클래스별로 분류하는 것이 아니라, 영상 속의 장면을 완벽하게 이해하는 높은 수준의 기법으로 시각적 환경을 완전히 이해하는데 필요한 핵심적인 컴퓨터 비전 기술 중의 하나이다.

또한, 상기 의미적인 분할 알고리즘은 빠른 상호 작용 또는 응답을 위한 효율적인 수행 속도와 정확한 판단을 위한 정확도의 요구가 높다. 예를 들어, 의미적인 분할의 수행 속도와 정확한 판단을 위한 정확도는 자율주행에서의 안전 제어 및 운전 결정, 충돌 회피와 같은 기술을 위해서 필수적인 요소이다.

하지만, 실제 촬영하는 영상에서 실시간으로 정확한 의미적인 분할을 수행하는 것은 어려움을 겪고 있다. 첫째로, 시각적 개체는 종종 변형, 폐색 및 스케일 변형의 영향을 받는다. 둘째, 배경 잡음은 객체를 배경에서 분리하기 어렵게 만든다.

따라서, 이러한 문제들을 다루기 위해서 우리는 외관 변화에 탄력적이고 강력한 알고리즘이 필요하다. 동시에, 복잡한 배경으로부터 물체를 구별하기 위해 다양한 상황별 정보를 고려할 필요가 있다.

[선행기술문헌]

[특허문헌] 대한민국 공개특허 제10-2019-0033933호(2019년 04월 01일 공개)

따라서, 본 발명은 종래의 단점을 해결하기 위한 것으로서, 입력 이미지에서 크기가 작은 객체를 효과적으로 추출하여 영상 분석의 정확성을 향상하고자 하는데 그 목적이 있다. 또한, 영상 분석을 AR(Augmented Reality)에 적용하기 위해 영상 분석의 수행 속도를 향상시키고자 하는데 그 목적이 있다.

이러한 기술적 과제를 이루기 위한 본 발명의 일 측면에 따른 AR에 적용 가능한 의미적인 분할 방법은 입력된 이미지에서 객체를 분류하고, 라벨링(Labeling) 하여 의미적인 분할 이미지를 획득하는 의미적인 분할(Semantic segmentation) 이미지 획득 단계(S10)와, 아트로스 컨볼루션(Atrous convolution)을 이용하여 획득된 이미지에서 특징점 맵(feature map)을 추출하는 변형된 확장 잔여 네트워크(DRN, Dilated Residual Network) 단계(S20)를 포함한다.

또한, 이미지에서 차지하는 영역이 작은 객체를 효과적으로 추출하기 위해 상기 추출된 특징점 맵에 따라 선택적으로 다양한 아트로스 컨볼루션(Atrous convolution)을 적용하고, 아트로스 컨볼루션을 병렬적으로 배치하여 특징점을 추출한 후 피라미드 형상으로 특징점 맵을 형성하는 아트로스 피라미드 풀링 모듈(Atrous Pyramid Pooling Module) 단계(S30)와, 상기 아트로스 피라미드 풀링 모듈(Atrous Pyramid Pooling Module) 단계(S30)를 통해 추출된 결과와 표준 데이터베이스에서 제공하는 결과 이미지를 비교하고, 비교 결과를 토대로 오차율을 줄이기 위해 가중치를 수정하는 변형된 확장 잔여 네트워크 역전파(Dilated Residual Network Backpropagation) 단계(S40)를 포함한다.

이때, 상기 아트로스 피라미드 풀링 모듈 단계(S30)는 아트로스 피라미드 풀링 모듈 단계(S30)에서 추출된 특징점 맵을 피라미드 형상으로 적층하고, 상기 피라미드 형상으로 형성된 특징점 맵을 1x1 컨볼루션을 적용하여 1채널의 특징점 맵으로 형성하는 과정을 포함한다.

또한, 본 발명의 다른 측면에 따른 AR에 적용 가능한 의미적인 분할 시스템은 영상 입력부, 분할 이미지 획득부, 특징점 추출부, 판단부 및 저장부를 포함한다. 상기 영상 입력부는 카메라와 같은 영상 장치를 통해 촬영된 이미지 정보 또는 표준 데이터베이스를 통해 이미지 정보를 입력받을 수 있다.

또한, 상기 분할 이미지 획득부는 영상 입력부를 통해 입력받은 이미지 정보에서 객체를 분류하고, 분류된 객체를 라벨링(Labeling) 하여 의미적인 분할(Semantic segmentation) 이미지를 획득한다.

또한, 상기 특징점 추출부는 확장 잔여 네트워크 모듈 및 아트로스 피라미드 풀링 모듈을 포함한다. 상기 확장 잔여 네트워크 모듈은 아트로스 컨볼루션(Atrous convolution)을 이용하여 상기 분할 이미지 획득부를 통해 획득된 이미지에서 특징점 맵(feature map)을 추출한다.

또한, 상기 아트로스 피라미드 풀링 모듈은 이미지에서 차지하는 영역이 작은 객체를 효과적으로 추출하기 위해 상기 확장 잔여 네트워크 모듈에서 추출된 특징점 맵에 따라 선택적으로 다양한 아트로스 컨볼루션(Atrous convolution)을 적용하고, 아트로스 컨볼루션을 병렬적으로 배치하여 특징점 맵을 추출한다.

또한, 상기 판단부는 아트로스 피라미드 풀링 모듈에서 추출된 결과와 미리 설정된 표준 데이터베이스에서 제공하는 결과 이미지를 비교하고, 비교 결과를 토대로 판단하여 오차율을 줄이기 위해 가중치를 수정한다.

이상에서 설명한 바와 같이, 본 발명에 따른 AR에 적용 가능한 의미적인 분할 방법 및 시스템은 이미지로부터 추출된 특징점 맵에 아트로스 컨볼루션을 적용하여 작은 객체를 효과적으로 추출하고, 영상 분석의 정확성을 향상할 수 있는 효과가 있다.

또한, 아트로스 컨볼루션을 병렬적으로 배치하여 특징점을 추출한 후 피라미드 형상으로 특징점 맵을 형성함으로써 영상 분석을 AR(Augmented Reality)에 적용하기 위한 의미적인 분할(Semantic segmentation)의 수행 속도를 향상시킬 수 있는 효과가 있다. 또한, 확장 잔여 네트워크 역전파(Dilated Residual Network Backpropagation)를 사용하여 의미적인 분할의 오차율을 줄이고 정확도를 향상시킬 수 있는 효과가 있다.

도 1은 본 발명의 실시 예에 따른 AR에 적용 가능한 의미적인 분할 방법을 나타내는 개념도이다.

도 2는 본 발명의 실시 예에 따른 AR에 적용 가능한 의미적인 분할 방법을 나타내는 순서도이다.

도 3은 의미적인 분할(Semantic segmentation) 이미지 획득과정을 나타내는 도면이다.

도 4는 파스칼(PASCAL) VOC 2012 데이터베이스의 이미지를 나타내는 도면이다.

도 5는 시티스케이프(Cityscape) 데이터베이스의 이미지를 나타내는 도면이다.

도 6은 본 발명의 실시 예에 따른 아트로스 컨볼루션(Atrous convolution)을 나타내는 도면이다.

도 7은 종래의 컨볼루션과 본 발명의 실시 예에 따른 아트로스 컨볼루션의 의미적인 분할 수행 결과를 나타내는 도면이다.

도 8은 본 발명의 실시 예에 따른 확장 잔여 네트워크(DRN)를 나타내는 도면이다.

도 9는 본 발명의 실시 예에 따른 아트로스 피라미드 풀링 모듈을 나타내는 도면이다.

도 10은 컨볼루션(Convolution)의 구조를 나타내는 도면이다.

도 11a 및 도 11b는 역전파(backpropagation) 과정의 카르파티(Karpathy) 계산 그래프를 나타내는 도면이다.

도 12는 본 발명의 실시 예에 따른 역전파 과정 이미지를 나타내는 도면이다.

도 13은 본 발명의 실시 예에 따른 AR에 적용 가능한 의미적인 분할 방법의 평가절차를 나타내는 흐름도이다.

도 14는 본 발명의 실시 예에 따른 AR에 적용 가능한 의미적인 분할 시스템을 나타내는 구성도이다.

아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시 예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면부호를 붙였다.

명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "…부", "…기", "…모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시 예를 설명함으로써, 본 발명을 상세히 설명한다.

각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.

도 1은 본 발명의 실시 예에 따른 AR(Augmented Reality)에 적용 가능한 의미적인 분할 방법을 나타내는 개념도이고, 도 2는 본 발명의 실시 예에 따른 AR에 적용 가능한 의미적인 분할 방법을 나타내는 순서도이다.

본 발명의 실시 예에 따른 AR에 적용 가능한 의미적인 분할(Semantic segmentation) 방법은 입력된 이미지에서 객체를 분류하고, 라벨링(Labeling) 하여 의미적인 분할 이미지를 획득하는 의미적인 분할(Semantic segmentation) 이미지 획득 단계(S10)와, 아트로스 컨볼루션(Atrous convolution)을 이용하여 획득된 이미지에서 특징점 맵(feature map)을 추출하는 변형된 확장 잔여 네트워크(DRN, Dilated Residual Network) 단계(S20)를 포함한다.

도 3은 의미적인 분할(Semantic segmentation) 이미지 획득과정을 나타내는 도면이고, 도 4는 파스칼(PASCAL) VOC 2012 데이터베이스의 이미지를 나타내는 도면이며, 도 5는 시티스케이프(Cityscape) 데이터베이스의 이미지를 나타내는 도면이다.

도 3과 같이 상기 의미적인 분할 이미지 획득 단계(S10)는 카메라와 같은 영상장치를 통해 이미지를 촬영하는 단계(S11)와, 촬영된 이미지로부터 객체를 검출하는 단계(S12)와, 검출된 객체를 토대로 라벨링(Labeling) 하여 분할(Segmentation) 이미지를 획득하는 단계(S13)를 포함할 수 있다.

한편, 본 발명의 실시 예에 따른 AR에 적용 가능한 의미적인 분할(Semantic segmentation) 방법에 대한 객관적인 평가를 위해 정규화된 표준 데이터베이스를 이용할 수 있다. 즉, 본 발명의 실시 예에 따른 AR에 적용 가능한 의미적인 분할 방법의 설명을 위해 정규화된 표준 데이터베이스를 이용한다.

예를 들어, 도 4의 파스칼(PASCAL) VOC 2012 데이터베이스와 도 5의 시티스케이프(Cityscape) 데이터베이스를 이용하여 이미지의 객체를 분류하고 라벨링(Labeling) 함으로써 의미적인 분할(Semantic segmentation) 이미지를 획득할 수 있다.

도 4의 파스칼(PASCAL) VOC 2012 데이터베이스는 비행기(aeroplane), 자전거(bicycle), 새(bird), 보트(boat), 병(bottle), 버스(bus), 자동차(car), 고양이(cat), 의자(chair), 소(cow), 식탁(dining table), 개(dog), 말(horse), 오토바이(motorbike), 사람(person), 화분(potted plant), 양(sheep), 소파(sofa), 열차(train), 티브/모니터(TV/monitor)와 같은 총 20개의 클래스(class)로 이루어지는 데이터베이스를 나타낸다.

또한, 도 5의 시티스케이프(Cityscape) 데이터베이스는 도시의 거리 장면 이미지로 구축하여 공개된 표준 데이터베이스이다. 즉, 상기 시티스케이프 데이터베이스는 50여 개의 도시에서 다양한 날과 시간대에 촬영한 이미지 데이터 셋으로, 30여 개의 클래스(class)를 가진 5000개의 이미지로 구성된다.

이때, 상기 의미적인 분할(Semantic segmentation) 이미지는 일관성을 유지하기 위해 동일한 크기로 조절하는 것이 바람직하다. 예를 들어, 상기 의미적인 분할 이미지들을 513x513의 크기로 조절할 수 있다.

도 6은 본 발명의 실시 예에 따른 아트로스 컨볼루션(Atrous convolution)을 나타내는 도면이다. 즉, 도 6의 도면 (a)는 비율(rate)의 크기 r=1일 때의 아트로스 컨볼루션(Atrous convolution)을 나타내는 도면이고, 도면 (b)는 비율(rate)의 크기 r=2일 때의 아트로스 컨볼루션(Atrous convolution)을 나타내는 도면이며, 도면 (c)는 비율(rate)의 크기 r=3일 때의 아트로스 컨볼루션(Atrous convolution)을 나타내는 도면이다.

도 6에서 도시된 바와 같이 상기 변형된 확장 잔여 네트워크(DRN, Dilated Residual Network) 단계(S20)는 컨볼루션(Convolution)을 변형하여 공간 정보를 최대한 유지하며 특징점을 추출하는 아트로스 컨볼루션(Atrous convolution)을 이용하여 원본 이미지에서 특징점 맵(feature map)을 추출한다.

상기 아트로스 컨볼루션(Atrous convolution) 구조는 웨이블릿(Wavelet) 분석의 영향을 받아 필터 내부에 제로 패딩(Zero padding)을 넣는 방법으로 가중치(Weight)의 개수를 늘리지 않고 윈도우(Window)의 크기를 늘린다.

이러한 아트로스 컨볼루션(Atrous convolution)은 종래의 컨볼루션에 비해 같은 연산량으로 큰 특징을 잡아낼 수 있으며, 다양한 확장 비율을 가진 아트로스 컨볼루션을 병렬적으로 사용하면 더 많은 공간 특징을 추출할 수 있다.

아래의 [수학식 1]은

이 1인 경우로 종래의 컨볼루션을 나타내는 수식이다. 또한, 아래의 [수학식 2]는

이 1보다 큰 경우로 아트로스 컨볼루션을 나타내는 수식이다.

[수학식 1]

[수학식 2]

여기에서, k는 커널(kernel)을 나타내고, s는 스트라이드(stride)를 나타낸다.

도 7은 종래의 컨볼루션과 본 발명의 실시 예에 따른 아트로스 컨볼루션의 의미적인 분할 수행 결과를 나타내는 도면이다. 종래의 컨볼루션 네트워크(Convolution network)를 사용하여 얻은 작은 특징점 맵으로 의미적인 분할을 수행하면 정확도가 감소한다.

도 7에서 도시된 바와 같이 다운 샘플링(down-sampling), 컨볼루션 및 업 샘플링(up-sampling)을 거쳐 의미적인 분할(Semantic segmentation)을 수행하는 상단 이미지와, 아트로스 컨볼루션(Atrous convolution)을 통해 의미적인 분할을 수행하는 하단 이미지의 차이를 확인할 수 있다.

도 7에서 종래의 컨볼루션에 대한 상단의 이미지를 보면 공간적 정보의 손실이 있는 상태에서 업 샘플링(up-sampling)을 하면서 의미적인 분할(Semantic segmentation)의 해상도가 떨어지는 것을 볼 수 있다.

하지만, 도 7에서 아트로스 컨볼루션(Atrous convolution)을 수행하는 하단의 이미지를 보면 리셉티브 필드(receptive field)를 크게 가져가면서 컨볼루션을 함으로써 공간적 정보의 손실을 최소화하면서 해상도는 큰 결과를 얻게 된다.

따라서, 본 발명의 실시 예에 따른 AR에 적용 가능한 의미적인 분할 방법은 아트로스 컨볼루션(Atrous convolution)을 이용하여 빈 가중치로 커널을 확장함으로써 네트워크는 풀링(pooling) 함수에 의존하지 않고 장거리 피처를 학습하며, 풀링(pooling)이 없이도 네트워크는 더 많은 높은 공간 빈도의 세부요소들을 유지할 수 있다.

도 8은 본 발명의 실시 예에 따른 확장 잔여 네트워크(DRN, Dilated Residual Network)를 나타내는 도면이고, 도 9는 본 발명의 실시 예에 따른 아트로스 피라미드 풀링 모듈(Atrous pyramid pooling module)을 나타내는 도면이다.

즉, 도 8은 잔여 네트워크(Residual network) 101단을 DRN의 원리를 적용하여 변형하고, 변형한 DRN을 이용하여 특징점 맵을 추출하는 도면이다. 아래의 [표 1]은 본 발명의 실시 예에 따른 DRN의 구조를 나타낸다.

[표 1] DRN(Dilated Residual Network)의 구조 표

본 발명의 실시 예에 따른 DRN은 입력 이미지에서 전체 이미지에 대한 공간영역의 특징을 최대한 보존하면서 중요한 특징만 추출해 특징점 맵을 생성한다.

또한, 본 발명의 실시 예에 따른 AR에 적용 가능한 의미적인 분할(Semantic segmentation) 방법은 이미지에서 차지하는 영역이 작은 객체를 효과적으로 추출하기 위해 상기 추출된 특징점 맵에 따라 선택적으로 다양한 아트로스 컨볼루션(Atrous convolution)을 적용하고, 아트로스 컨볼루션을 병렬적으로 배치하여 특징점을 추출한 후 피라미드 형상으로 특징점 맵을 형성하는 아트로스 피라미드 풀링 모듈(Atrous Pyramid Pooling Module) 단계(S30)와, 상기 아트로스 피라미드 풀링 모듈(Atrous Pyramid Pooling Module) 단계(S30)를 통해 추출된 결과와 표준 데이터베이스에서 제공하는 결과 이미지를 비교하고, 비교 결과를 토대로 오차율을 줄이기 위해 가중치를 수정하는 변형된 확장 잔여 네트워크 역전파(Dilated Residual Network Backpropagation) 단계(S40)를 포함한다.

의미적인 분할(Semantic segmentation)에서 정확도를 높이기 위해서는 작은 객체도 정확하게 추출하는 것이 중요하다. 하지만, 종래의 의미적인 분할(Semantic segmentation) 분야에서 작은 객체가 복잡하게 배치된 경우는 세그맨테이션(Segmentation)에 많은 어려움을 겪는다.

따라서, 본 발명의 실시 예에 따른 AR에 적용 가능한 의미적인 분할 방법은 이러한 문제점을 해결하기 위해 PSPNet(Pyramid Scene Parsing Network)의 피라미드 센스 풀링(Pyramid sense pooling)에서 변형을 주어 적용한다.

예를 들어, 도 9와 같이 DRN을 통해 얻은 28x28 크기의 특징점 맵에 5가지의 아트로스 컨볼루션을 병렬적으로 적용하여 특징점 맵을 추출할 수 있다. 여기에서 적용하는 아트로스 컨볼루션은 비율(rate) 1을 적용한 일반적인 컨볼루션과 비율(rate)을 3, 6, 9로 적용한 아트로스 컨볼루션과, 마지막은 상기 변형된 확장 잔여 네트워크(DRN) 단계(S20)에서 추출된 특징점 맵에 이미지 풀링을 적용한다.

그 후 도 9와 같이 추출한 5가지 특징점 맵을 피라미드 형태로 쌓고, 1x1 컨볼루션을 적용하여 1채널 특징점 맵을 추출한다.

이와 같이, 상기 아트로스 피라미드 풀링 모듈(Atrous Pyramid Pooling Module) 단계(S30)는 이미지에서 차지하는 영역이 작은 객체를 효과적으로 추출하기 위해 상기 변형된 확장 잔여 네트워크(DRN, Dilated Residual Network) 단계(S20)에서 추출된 특징점 맵에 다양한 아트로스 컨볼루션(Atrous convolution)을 적용한다.

또한, 상기 아트로스 피라미드 풀링 모듈(Atrous Pyramid Pooling Module) 단계(S30)는 소요시간을 줄이기 위해 아트로스 컨볼루션(Atrous convolution)을 병렬적으로 배치하여 특징점을 추출한 후 피라미드 모양으로 특징점 맵을 쌓는다.

이때, 미리 설정된 기준치 이하로 크기가 작은 특징점 맵은 업샘플링(Up-sampling)을 통해 크기를 동일하게 맞추어 쌓는 것이 바람직하다. 또한, 다양한 특징점 맵을 피라미드 모양으로 쌓으면 1x1 컨볼루션(Convolution)을 적용하여 1채널의 특징점 맵을 생성한다.

또한, 상기 변형된 확장 잔여 네트워크 역전파 단계(S40)는 상기 아트로스 피라미드 풀링 모듈(Atrous Pyramid Pooling Module)에서 추출된 최종 특징점 맵에서 컨볼루션을 통해 얻은 의미적인 분할(Semantic segmentation)을 데이터베이스에서 제공하는 결과 이미지와 비교하여 미리 설정된 일정 값 이상 오차율이 발생하면, 상기 변형된 확장 잔여 네트워크(DRN) 단계(S20)에서 수행하는 컨볼루션에 적용하여 가중치를 수정하고 오차율을 줄인다.

일반적으로 CNN(Convolutional Neural Network)은 필터가 입력데이터를 슬라이딩하면서 지역적 특징(feature)을 추출하여 최대값(max pooling)이나 평균값(average pooling)으로 압축하여 다음 레이어로 전송한다. 이러한 과정을 반복하는 것이 CNN의 일반적인 구조이다.

도 10은 컨볼루션(Convolution)의 구조를 나타내는 도면이고, 도 11a 및 도 11b는 역전파(backpropagation) 과정의 카르파티(Karpathy) 계산 그래프를 나타내는 도면이다. 즉, 도 11a는 도 10의 컨볼루션 구조를 바탕으로

에 대한 역전파 과정을 나타내는 도면이고, 도 11b는 도 10의 컨볼루션 구조를 바탕으로

에 대한 역전파 과정을 나타내는 도면이다.

도 10에서 입력값은 5x5 행렬이고,

는 각각 입력값의 i번째 행, j번째 열의 요소를 나타낸다. 이때, 해당 입력값에 필터의 크기가 3x3인 컨볼루션을 수행하면, 출력값은 2x2의 크기를 갖는다. 예를 들어, 도 10에서

의 값은

의 합성곱으로 출력된다.

또한, 도 11a에서 도시된 바와 같이

은 포워드(forward) 과정에서 3x3 필터의

가중치하고만 합성곱이 수행되기 때문에 역전파도 한 번만 진행된다. 이때,

의 기울기는 흘러들어온 기울기

에 상대방의 변화량을 나타내는 로컬 그래디언트(

)을 곱해서 구할 수 있다.

마찬가지로,

의 그래디언트는 흘러들어온 그래디언트

에 로컬 그래디언트(

)를 곱해 계산할 수 있다. 또한, 도 11b에서 도시된 바와 같이 상기

과 동일한 방식으로

에 대한 역전파를 계산할 수 있다.

도 12는 본 발명의 실시 예에 따른 역전파 과정 이미지를 나타내는 도면이다. 상기 도 11a 및 도 11b와 같이 역전파 방식을 일일이 대입하기에는 어려움이 많다.

따라서, 도 12의 역전파 과정 이미지를 활용하여 간단하게 그래디언트를 구할 수 있다. 즉, 컨볼루션 레이어(convolution layer)를 만들 때 사용하는 필터의 요소를 정반대로 바꿔서 그래디언트 행렬에 합성곱을 수행하면 입력 벡터에 대한 그래디언트를 구할 수 있다.

예를 들어,

의 그래디언트는 도 12의 좌측 상단을 참고로 아래의 [수학식 1]을 이용하여 구할 수 있다.

[수학식 1]

또한, 필터의 그래디언트는 흘러들어온 그래디언트 행렬의 첫 번째 요소인

이

와 연결되어 있기에 필터의 그래디언트는 흘러들어온 그래디언트(

)에 로컬 그래디언트를 곱해서 구할 수 있다.

따라서,

의 그래디언트는 아래의 [수학식 2]와 같이 구할 수 있다.

[수학식 2]

입력이미지와 변형된 DRN(Dilated Residual Network)을 적용하여 나온 결과를 비교하여 역전파를 진행하지만, 아트로스 피라미드 풀링 모듈(320)을 거쳐 얻은 결과가 실제 정확도에 영향을 줄 수 있다.

따라서, 상기 변형된 확장 잔여 네트워크 역전파(Dilated Residual Network Backpropagation) 단계(S40)는 도 1과 같이 아트로스 피라미드 풀링 모듈(320)을 통해 얻은 결과를 표준 데이터베이스에서 제공한 참값과 비교하고, 미리 설정된 해당 오차율을 사용하여 변형된 확장 잔여 네트워크 역전파(Dilated Residual Network Backpropagation)를 수행한다.

도 13은 본 발명의 실시 예에 따른 AR에 적용 가능한 의미적인 분할 방법의 평가절차를 나타내는 흐름도이다. 도 13과 같은 과정을 통해 본 발명의 AR에 적용 가능한 의미적인 분할 방법의 인식 횟수에 따른 인식에 걸리는 시간(소요시간)과 예측된 경계 상자와 실제 참값(ground truth) 경계 상자의 교차율(정확도)을 평가할 수 있다.

도 13에서 도시된 바와 같이 학습 과정에서 변형된 DRN(Dilated Residual Network), 아트로스 피라미드 풀링 모듈(Atrous pyramid pooling module)을 적용하여 파스칼(PASCAL) VOC 2012 데이터베이스와 시티스케이프(Cityscape) 데이터베이스와 같은 정규화된 표준 데이터베이스를 학습시킨다.

또한, 수행 과정에서는 종래에 학습된 데이터를 기반으로 의미적인 분할(Semantic segmentation)을 수행한다.

이때, 정확도와 소요시간을 평가하기 위하여 실험에 사용된 파스칼(PASCAL) VOC 2012 데이터베이스의 이미지는 513x513 크기로 조절하여 사용한다. 또한, 본 발명의 실시 예에 따른 AR에 적용 가능한 의미적인 분할 방법의 객관적인 신뢰도를 평가하기 위하여 2018년에 Liang-Chieh Chen 외 4명이 발표한 "Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation"과 정확도를 비교한다.

아래의 [표 2]는 본 발명의 실시 예에 따른 AR에 적용 가능한 의미적인 분할 방법과 다른 논문들에 대한 파스칼(PASCAL) VOC 2012 데이터베이스 정확도를 비교한 결과를 나타낸다.

[표 2] Comparison of Semantic Segmentation Techniques and Other Papers with PASCAL VOC 2012 Database Accuracy

즉, 상기 [표 2]는 Liang-Chieh Chen 외 4명이 발표한 "Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation"이 동일한 환경에서 다른 논문에서 발표한 기법들과 비교 평가한 정확도 결과를 바탕으로, 본 발명의 실시 예에 따른 AR에 적용 가능한 의미적인 분할 방법과 비교한 정확도 결과를 나타낸다.

상기 [표 2]에서 나타난 바와 같이 본 발명의 실시 예에 따른 AR에 적용 가능한 의미적인 분할 방법의 결과가 다른 논문에서 발표한 기법들보다 높은 정확도를 나타낸다. Liang-Chieh Chen 외 4명이 발표한 "Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation"에서 발표한 DeepLabv3+ 기법은 의미적인 분할(Semantic segmentation) 기법을 수행하면서 순(forward) 방향만 고려할 뿐 역전파(backpropagation)를 수행하지 않아 정확도가 떨어진다.

그러나 본 발명의 실시 예에 따른 AR에 적용 가능한 의미적인 분할 방법은 최종 이미지에서 측정지수인 mIOU가 일정값 이상 나오지 않으면 역전파(backpropagation)를 수행한다.

아래의 [표 3]은 파스칼(PASCAL) VOC 2012 데이터베이스의 전체 이미지에 대한 의미적인 분할의 소요시간을 나타낸다.

[표 3] Duration of semantic segmentation for images in PASCAL VOC 2012 database

상기 [표 3]과 같이 파스칼(PASCAL) VOC 2012 데이터베이스의 이미지를 입력으로 의미적인 분할을 수행하여 걸리는 시간을 측정한다. [표 3]에서 나타난 바와 같이 본 발명의 실시 예에 따른 AR에 적용 가능한 의미적인 분할 방법이 파스칼(PASCAL) VOC 2012 데이터베이스의 전체 이미지를 대상으로 1초에 의미적인 분할을 수행한 이미지의 개수로 소요시간을 측정한 초당 프레임은 64.3(FPS)의 결과를 나타낸다.

따라서, 초당 프레임(FPS)이 60(FPS) 이상으로 나타났기 때문에 사람의 움직임 속도를 따라가는 AR 분야에 적용 가능함을 확인할 수 있다.

한편, 본 발명의 실시 예에 따른 AR에 적용 가능한 의미적인 분할 방법의 객관적인 신뢰도를 평가하기 위하여 2018년에 Liang-Chieh Chen 외 4명이 발표한 "Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation"과 비교한다.

이때, 정확도를 평가하기 위하여 실험에 사용된 시티스케이프(Cityscape) 데이터베이스의 이미지는 파스칼(PASCAL) VOC 2012 데이터베이스의 이미지와 같이 513x513 크기로 조절하여 사용한다.

아래의 [표 4]는 본 발명의 실시 예에 따른 AR에 적용 가능한 의미적인 분할 방법과 다른 논문들에 대한 시티스케이프(Cityscape) 데이터베이스 정확도의 비교 결과를 나타낸다.

[표 4] Comparison of Semantic Segmentation Techniques and Other Papers with Cityscapes Database Accuracy

즉, 상기 [표 4]는 Liang-Chieh Chen 외 4명이 발표한 "Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation"이 동일한 환경에서 다른 논문에서 발표한 기법들과 비교 평가한 결과를 바탕으로, 본 발명의 실시 예에 따른 AR에 적용 가능한 의미적인 분할 방법과 비교한 결과를 나타낸다.

상기 [표 4]에서 나타난 바와 같이 본 발명의 실시 예에 따른 AR에 적용 가능한 의미적인 분할 방법의 결과가 다른 논문에서 발표한 기법의 결과들에 비해 높은 정확도를 나타낸다. Liang-Chieh Chen 외 4명이 발표한 "Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation"의 DeepLabv3+ 기법은 의미적인 분할 기법을 수행함에 있어서 순(forward) 방향만 고려할 뿐 역전파(backpropagation)를 수행하지 않아 정확도가 떨어진다.

그러나 본 발명의 실시 예에 따른 AR에 적용 가능한 의미적인 분할 방법은 최종 이미지에서 측정지수인 mIOU가 일정값 이상 나오지 않으면 역전파(backpropagation)를 수행함으로써 다른 논문에서 발표한 기법들보다 우수한 정확도를 나타낸다.

아래의 [표 5]는 시티스케이프(Cityscape) 데이터베이스의 전체 이미지에 대한 의미적인 분할의 소요시간을 나타낸다.

[표 5] Duration of semantic segmentation for images in Cityscapes database

상기 [표 5]와 같이 시티스케이프(Cityscape) 데이터베이스의 이미지를 입력으로 의미적인 분할을 수행하여 걸리는 시간을 측정한다. [표 5]에서 나타난 바와 같이 본 발명의 실시 예에 따른 AR에 적용 가능한 의미적인 분할 방법이 시티스케이프(Cityscape) 데이터베이스를 대상으로 1초에 의미적인 분할을 수행한 이미지의 개수로 소요시간을 측정한 초당 프레임은 61(FPS)의 결과를 나타낸다.

도 14는 본 발명의 실시 예에 따른 AR에 적용 가능한 의미적인 분할 시스템을 나타내는 구성도이다. 본 발명의 실시 예에 따른 AR에 적용 가능한 의미적인 분할 시스템(10)은 영상 입력부(100), 분할 이미지 획득부(200), 특징점 추출부(300), 판단부(400) 및 저장부(500)를 포함할 수 있다.

영상 입력부(100)는 이미지 정보를 입력받을 수 있다. 즉, 영상 입력부(100)는 카메라와 같은 영상 장치를 통해 촬영된 이미지 정보나, 또는 표준 데이터베이스를 통해 이미지 정보를 입력받을 수 있다.

상기 표준 데이터베이스에는 파스칼(PASCAL) VOC 2012 데이터베이스와, 시티스케이프(Cityscape) 데이터베이스가 포함될 수 있다.

분할 이미지 획득부(200)는 영상 입력부(100)를 통해 입력받은 이미지 정보에서 객체를 분류하고, 분류된 객체를 라벨링(Labeling) 하여 의미적인 분할(Semantic segmentation) 이미지를 획득한다.

또한, 특징점 추출부(300)는 확장 잔여 네트워크 모듈(310) 및 아트로스 피라미드 풀링 모듈(320)를 포함한다. 확장 잔여 네트워크 모듈(310)은 아트로스 컨볼루션(Atrous convolution)을 이용하여 분할 이미지 획득부(200)를 통해 획득된 이미지에서 특징점 맵(feature map)을 추출한다.

또한, 아트로스 피라미드 풀링 모듈(320)은 이미지에서 차지하는 영역이 작은 객체를 효과적으로 추출하기 위해 확장 잔여 네트워크 모듈(310)에서 추출된 특징점 맵에 따라 선택적으로 다양한 아트로스 컨볼루션(Atrous convolution)을 적용하고, 아트로스 컨볼루션을 병렬적으로 배치하여 특징점 맵을 추출한다.

또한, 판단부(400)는 아트로스 피라미드 풀링 모듈(320)에서 추출된 결과와 미리 설정된 표준 데이터베이스에서 제공하는 결과 이미지를 비교한다. 또한, 판단부(400)는 비교 결과를 토대로 판단하여 오차율을 줄이기 위해 가중치를 수정한다.

즉, 판단부(400)는 이미지의 비교 결과 미리 설정된 오차 기준값 이상의 오차율이 발생하면 확장 잔여 네트워크 모듈(310)에서 수행하는 아트로스 컨볼루션(Atrous convolution)의 가중치를 수정하여 이미지의 특징점 맵(feature map)을 다시 추출한다.

또한, 저장부(500)는 영상 입력부(100)를 통해 입력받은 이미지 정보 또는 표준 데이터베이스를 저장할 수 있다. 또한, 저장부(500)는 특징점 추출부(300)를 통해 추출된 특징점 맵을 저장한다.

이와 같이, 본 발명의 실시 예에 따른 AR에 적용 가능한 의미적인 분할 방법 및 시스템은 추출된 특징점 맵에 아트로스 컨볼루션을 적용하여 작은 객체를 효과적으로 추출할 수 있다. 또한, 아트로스 컨볼루션을 병렬적으로 배치하여 특징점을 추출한 후 피라미드 형상으로 특징점 맵을 형성함으로써 소요시간을 줄일 수 있다.

또한, 확장 잔여 네트워크 역전파(Dilated Residual Network Backpropagation)를 사용하여 오차율을 줄이고 정확도를 향상시킬 수 있다.

이상으로 본 발명에 관한 바람직한 실시 예를 설명하였으나, 본 발명은 상기 실시 예에 한정되지 아니하며, 본 발명의 실시 예로부터 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의한 용이하게 변경되어 균등하다고 인정되는 범위의 모든 변경을 포함한다.

[부호의 설명]

10 : 의미적인 분할 시스템

100 : 영상 입력부 200 : 분할 이미지 획득부

300 : 특징점 추출부 310 : 확장 잔여 네트워크 모듈

320 : 아트로스 피라미드 풀링 모듈

400 : 판단부 500 : 저장부

Claims

입력된 이미지에서 객체를 분류하고, 라벨링(Labeling) 하여 의미적인 분할 이미지를 획득하는 의미적인 분할(Semantic segmentation) 이미지 획득 단계(S10);

아트로스 컨볼루션(Atrous convolution)을 이용하여 획득된 이미지에서 특징점 맵(feature map)을 추출하는 변형된 확장 잔여 네트워크(DRN, Dilated Residual Network) 단계(S20); 및

이미지에서 차지하는 영역이 작은 객체를 효과적으로 추출하기 위해 추출된 특징점 맵에 따라 선택적으로 다양한 아트로스 컨볼루션(Atrous convolution)을 적용하고, 아트로스 컨볼루션을 병렬적으로 배치하여 특징점 맵을 추출하는 아트로스 피라미드 풀링 모듈(Atrous Pyramid Pooling Module) 단계(S30)를 포함하는 AR에 적용 가능한 의미적인 분할 방법.
제1항에 있어서,

상기 아트로스 피라미드 풀링 모듈 단계(S30)를 통해 추출된 결과와 미리 설정된 표준 데이터베이스에서 제공하는 결과 이미지를 비교하고, 비교 결과를 토대로 판단하여 오차율을 줄이기 위해 가중치를 수정하는 변형된 확장 잔여 네트워크 역전파(Dilated Residual Network Backpropagation) 단계(S40)를 더 포함하는 AR에 적용 가능한 의미적인 분할 방법.
제1항에 있어서,

상기 아트로스 피라미드 풀링 모듈 단계(S30)는 아트로스 피라미드 풀링 모듈 단계(S30)에서 추출된 특징점 맵을 피라미드 형상으로 적층하고,

상기 피라미드 형상으로 형성된 특징점 맵을 1x1 컨볼루션을 적용하여 1채널의 특징점 맵으로 형성하는 것을 특징으로 하는 AR에 적용 가능한 의미적인 분할 방법.
제3항에 있어서,

미리 설정된 기준치 이하로 크기가 작은 특징점 맵은 업샘플링(up-sampling)을 통해 크기를 동일하게 조절하는 것을 특징으로 하는 AR에 적용 가능한 의미적인 분할 방법.
제1항에 있어서,

상기 변형된 확장 잔여 네트워크(DRN) 단계(S20)는 공간 정보를 최대한 유지하며 특징점을 추출하는 아트로스 컨볼루션(Atrous convolution)을 이용하여 획득된 이미지에서 전체 이미지에 대한 공간영역의 특징을 최대한 보존하면서 중요한 특징만 추출해 특징점 맵(feature map)을 추출하는 것을 특징으로 하는 AR에 적용 가능한 의미적인 분할 방법.
이미지 정보를 입력받는 영상 입력부;

상기 영상 입력부를 통해 입력받은 이미지 정보에서 객체를 분류하고, 분류된 객체를 라벨링(Labeling) 하여 의미적인 분할(Semantic segmentation) 이미지를 획득하는 분할 이미지 획득부;

아트로스 컨볼루션(Atrous convolution)을 이용하여 상기 분할 이미지 획득부를 통해 획득된 이미지에서 특징점 맵(feature map)을 추출하는 확장 잔여 네트워크 모듈;

이미지에서 차지하는 영역이 작은 객체를 효과적으로 추출하기 위해 상기 확장 잔여 네트워크 모듈에서 추출된 특징점 맵에 따라 선택적으로 다양한 아트로스 컨볼루션(Atrous convolution)을 적용하고, 아트로스 컨볼루션을 병렬적으로 배치하여 특징점 맵을 추출하는 아트로스 피라미드 풀링 모듈; 및

상기 아트로스 피라미드 풀링 모듈에서 추출된 결과와 미리 설정된 표준 데이터베이스에서 제공하는 결과 이미지를 비교하고, 비교 결과를 토대로 판단하여 오차율을 줄이기 위해 가중치를 수정하는 판단부를 포함하는 AR에 적용 가능한 의미적인 분할 시스템.
제6항에 있어서,

상기 판단부는 이미지의 비교 결과 미리 설정된 오차 기준값 이상의 오차율이 발생하면 상기 확장 잔여 네트워크 모듈에서 수행하는 아트로스 컨볼루션(Atrous convolution)의 가중치를 수정하여 이미지의 특징점 맵(feature map)을 다시 추출하는 것을 특징으로 하는 AR에 적용 가능한 의미적인 분할 시스템.