KR20200143193A

KR20200143193A - 객체인식장치 및 객체인식방법

Info

Publication number: KR20200143193A
Application number: KR1020190117656A
Authority: KR
Inventors: 유영준; 한동윤; 윤상두
Original assignee: 네이버 주식회사; 라인 가부시키가이샤
Priority date: 2019-06-13
Filing date: 2019-09-24
Publication date: 2020-12-23
Also published as: KR102261894B1

Abstract

본 출원은 객체인식장치 및 객체인식방법에 관한 것으로서, 본 발명의 일 실시예에 의한 객체인식장치는, 대상 이미지를 입력받으면, 특징추출연산을 수행하여 특징이미지를 생성하는 특징 추출부(feature extraction block); 및 상기 특징이미지에 특징맵추출연산을 반복적으로 수행하여, 상기 특징맵 추출연산을 적용한 횟수에 따라 각각 상이한 해상도를 가지는 복수의 제1 특징맵을 생성하는 백본 네트워크부(backbone network)를 포함할 수 있다.

Description

객체인식장치 및 객체인식방법 {Apparatus and method for object detection}

본 출원은 대상이미지 내에 포함된 객체를 인식할 수 있는 객체인식장치 및 객체인식방법에 관한 것이다.

최근 얼굴 정보를 이용한 다양한 어플리케이션 (application)이 등장함에 따라 실용적인 얼굴 검출 방법에 관심이 높아지고 있다. 얼굴 인식 시스템은 특정인의 출입을 허가하는 보안시스템과 감시 환경에서 개인의 프라이버시(privacy) 보호를 위해 사용 되고 있다. 또한, 표정 인식은 얼굴 영역에 대해 표 정 변화를 분석하여 외형적 표정 변화로부터 사람 의 감정을 해석하는 분야에 이용되고 있다. 이러한 얼굴 정보를 활용한 어플리케이션의 영역이 확대되고 그 수가 증가함에 따라 다양한 환경에서 얼굴 영역을 정확하게 추출할 수 있는 실용성 높은 얼굴 검출 방법에 대한 연구가 활발하게 진행되고 있다.

최근에 다양한 컴퓨터 비전(computer vision)의 분야에서 학습에 기반한 합성곱 신경망(convolutional neural network; CNN) 방법이 큰 성과를 이루었다. CNN의 얼굴 검출 방법이 검출 성능에서 큰 발전을 이루었지만, 시스템의 증가된 복잡도는 이에 대한 실용성에 의문을 갖게 했다. 320×240의 이미지로부터 추출할 수 있는 윈도우(window)의 수는 십억 개에 달한다. 수많은 패치에 대해서 각각 CNN에 기반하여 특징 정보를 추출하고 얼굴과 얼굴이 아닌 영역으로 분류(classification)를 하게 된다. 이는 얼굴 검출 성능과 시스템의 복잡도 사이의 트레이드오프(trade off) 관계를 잘 나타낸다. 또한, 인접한 윈도우 사이의 교집합 영역에 대해 합성곱 연산(convolution operation)이 반복적으로 수행됨으로써 불필요한 연산 과정이 포함되고, 합성곱 신경망의 완전 연결 계층(fully-connected layer)의 입력과 출력이 고정됨으로 인하여 그 신경망을 통과하는 모든 입력 데이터는 입력 데이터의 크기를 고정된 크기로 재조정(resizing)하는 과정을 수반함으로써 시스템의 연산 복잡도가 증가하게 된다.

본 출원은, 상대적으로 적은 용량으로 다양한 크기의 객체들에 대한 높은 객체인식성능을 구현할 수 있는 객체인식장치 및 객체인식방법을 제공하고자 한다.

본 출원은, 백본네트워크의 반복적인 재사용을 이용하여 복수의 특징맵들을 생성할 수 있는 객체인식장치 및 객체인식방법을 제공하고자 한다.

본 발명의 일 실시예에 의한 객체인식장치는, 대상 이미지를 입력받으면, 특징추출연산을 수행하여 특징이미지를 생성하는 특징 추출부(feature extraction block); 및 상기 특징이미지에 특징맵추출연산을 반복적으로 수행하여, 상기 특징맵 추출연산을 적용한 횟수에 따라 각각 상이한 해상도를 가지는 복수의 제1 특징맵을 생성하는 백본 네트워크부(backbone network)를 포함할 수 있다.

본 발명의 일 실시예에 의한 객체인식방법은, 입력받은 대상이미지에 특징추출연산을 수행하여 특징이미지를 생성하는 단계; 상기 특징이미지에 특징맵추출연산을 반복적으로 수행하고, 상기 특징맵 추출연산을 적용한 횟수에 따라 각각 상이한 해상도를 가지는 복수의 제1 특징맵을 생성하는 단계; 및 상기 복수의 제1 특징맵 내를 이동하는 각각의 경계박스를 이용하여, 상기 경계박스 내의 객체 포함여부를 판별하고, 상기 객체가 포함된 경우에는 상기 제1 특징맵 내의 경계박스를 상기 대상 이미지 내의 위치로 회귀시켜 상기 객체의 위치정보를 추출하는 단계를 포함할 수 있다.

본 발명의 다른 실시예에 의한 객체인식방법은, 입력받은 대상이미지에 특징추출연산을 수행하여 특징이미지를 생성하는 단계; 상기 특징이미지에 특징맵추출연산을 반복적으로 수행하고, 상기 특징맵 추출연산을 적용한 횟수에 따라 각각 상이한 해상도를 가지는 복수의 제1 특징맵을 생성하는 단계; 복수의 제1 특징맵 중에서 해상도가 가장 낮은 제1 특징맵을 최초의 제2 특징맵으로 설정하는 단계; 직전에 생성한 제2 특징맵을 업샘플링(upsampling)하고, 상기 업샘플링된 결과와 동일한 해상도를 가지는 제1 특징맵을 스킵 커넥션 기법(skip connection)으로 연결하여 제2 특징맵을 생성하는 단계; 및 상기 복수의 제2 특징맵 내를 이동하는 각각의 경계박스를 이용하여, 상기 경계박스 내의 객체 포함여부를 판별하고, 상기 객체가 포함된 경우에는 상기 제2 특징맵 내의 경계박스를 상기 대상 이미지 내의 위치로 회귀시켜 상기 객체의 위치정보를 추출하는 단계를 포함할 수 있다.

덧붙여 상기한 과제의 해결수단은, 본 발명의 특징을 모두 열거한 것이 아니다. 본 발명의 다양한 특징과 그에 따른 장점과 효과는 아래의 구체적인 실시형태를 참조하여 보다 상세하게 이해될 수 있을 것이다.

본 발명의 일 실시예에 의한 객체인식장치 및 객체인식방법은, 백본네트워크의 반복적인 재사용을 이용하여 복수의 특징맵을 생성할 수 있으므로, 객체인식장치의 구현을 위해 필요한 파라미터의 개수를 획기적으로 줄일 수 있다.

본 발명의 일 실시예에 의한 객체인식장치 및 객체인식방법에 의하면, 다양한 크기의 객체들에 대한 반복적인 학습을 수행하므로, 상대적으로 작은 크기의 객체에 대한 객체인식율을 높일 수 있다.

다만, 본 발명의 실시예들에 따른 객체인식장치 및 객체인식방법이 달성할 수 있는 효과는 이상에서 언급한 것들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

도1은 본 발명의 일 실시예에 의한 객체인식장치를 나타내는 블록도이다.
도2는 본 발명의 일 실시예에 의한 특징추출부를 나타내는 블록도이다.
도3은 본 발명의 일 실시예에 의한 역잔류모듈을 나타내는 블록도이다.
도4는 본 발명의 일 실시예에 의한 업샘플링모듈, 분류부 및 위치감지부를 나타내는 블록도이다.
도5는 본 발명의 일 실시예에 의한 백본네트워크의 구조를 나타내는 블록도이다.
도6은 본 발명의 다른 실시예에 의한 객체인식장치를 나타내는 블록도이다.
도7은 본 발명의 일 실시예에 의한 객체인식방법을 나타내는 순서도이다.
도8은 본 발명의 다른 실시예에 의한 객체인식방법을 나타내는 순서도이다.

이하, 첨부된 도면을 참조하여 본 명세서에 개시된 실시 예를 상세히 설명하되, 도면 부호에 관계없이 동일하거나 유사한 구성요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 이하의 설명에서 사용되는 구성요소에 대한 접미사 '모듈' 및 '부'는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다. 즉, 본 발명에서 사용되는 '부'라는 용어는 소프트웨어, FPGA 또는 ASIC과 같은 하드웨어 구성요소를 의미하며, '부'는 어떤 역할들을 수행한다. 그렇지만 '부'는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. '부'는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 '부'는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다. 구성요소들과 '부'들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 '부'들로 결합되거나 추가적인 구성요소들과 '부'들로 더 분리될 수 있다.

또한, 본 명세서에 개시된 실시 예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 명세서에 개시된 실시 예의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 명세서에 개시된 실시 예를 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 명세서에 개시된 기술적 사상이 제한되지 않으며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

도1은 본 발명의 일 실시예에 의한 객체인식장치를 나타내는 블록도이다.

도1을 참조하면, 본 발명의 일 실시예에 의한 객체인식장치는, 특징 추출부(110), 백본 네트워크부(120), 업샘플링부(130), 분류부(140) 및 위치감지부(150)를 포함할 수 있다.

이하 도1을 참조하여 본 발명의 일 실시예에 의한 객체인식장치를 설명한다.

특징추출부(110)는 대상 이미지를 입력받으면, 대상 이미지에 대한 특징추출연산을 수행하여 특징 이미지를 생성할 수 있다. 도2에 예시된 바와 같이, 특징추출부(110)는 3×3 컨볼루션 레이어, 배치 정규화 레이어(batch normalization layer) 및 활성함수 레이어(Activation layer)를 포함할 수 있으며, 각각의 레이어를 순차적으로 통과하여 특징추출연산을 수행할 수 있다. 여기서, 3×3 컨볼루션 레이어에 포함된 s는 컨볼루션 레이어의 스트라이드(stride)이고, p는 패딩(padding)의 수행여부, g는 그룹, c_in은 입력 채널의 폭(width), c_out은 출력 채널의 폭에 각각 대응한다. 즉, 도2에 의하면 특징추출부(110)는, 스트라이드가 2이고, 패딩을 수행하며, 입력채널의 폭은 3, 출력채널의 폭은 h인 3×3 컨볼루션 필터 연산을 수행할 수 있도록 구성될 수 있다.

예를들어, 대상 이미지가 컬러 이미지인 경우, 입력채널은 RGB의 3가지 색상에 대응하는 3개의 채널을 포함할 수 있으며, 특징추출부(110)의 3×3 컨볼루션 레이어는 3개의 입력채널을 가질 수 있다. 여기서, 출력채널은 h이므로 3×3 컨볼루션 레이어는 특징이미지의 채널을 h개로 확장시킬 수 있으며, 스트라이드가 2이므로 특징이미지의 해상도를 대상 이미지의 절반으로 낮출 수 있다. 예를들어, 대상 이미지의 해상도가 640×640인 경우, 특징 이미지는 320×320으로 줄어들 수 있다.

백본 네트워크부(120)는 특징이미지에 대해 특징맵추출연산을 반복적으로 수행할 수 있으며, 특징맵추출연산을 수행한 횟수에 따라, 해상도가 상이한 제1 특징맵들을 생성할 수 있다.

도1을 참조하면, 백본 네트워크부(120)는 복수의 역잔류모듈(inverted residual module, 121)들을 포함할 수 있으며, 복수의 역잔류모듈(121)들을 모두 포함하는 하나의 세트에 대한 연산을 완료하면 특징맵추출연산을 1회 수행한 것에 해당한다.

즉, 특징맵추출연산을 1회 수행하면 연산결과로 제1 특징맵 f1을 생성할 수 있으며, 이후 제1 특징맵 f1을 다시 백본 네트워크부(120)로 입력하여 특징맵추출연산을 2회째 수행하도록 할 수 있다. 이 경우, 백본 네트워크부(120)는 2회의 특징맵추출연산에 대응하는 제1 특징맵 f2를 생성할 수 있다. 이후, 동일한 방식으로 반복하여, 제1 특징맵 f3, f4, f5, f6를 순차적으로 생성할 수 있다. 여기서는, 제1 특징맵을 6개 생성하는 실시예를 제시하고 있으나, 이에 한정되는 것은 아니며, 생성하는 제1 특징맵의 개수는 실시예에 따라 다양하게 변형가능하다.

종래의 SSD(Single Shot Detector)의 경우, 대상 이미지에 복수의 컨볼루션 필터를 순차적으로 적용하여, 각각의 컨볼루션 필터에 대응하는 특징맵들을 생성하였다. 즉, 종래의 SSD에서는 서로 다른 컨볼루션 필터들을 순차적으로 통과하여 특징맵들을 생성하였으므로, 6개의 특징맵을 생성하기 위해서는 서로다른 6개의 컨볼루션 필터들의 파라미터를 설계할 필요가 있다.

반면에, 본 발명에서는 동일한 특징맵추출연산을 반복적으로 재사용하므로, 특징맵추출연산을 위한 파라미터만을 설계하여도 복수의 특징맵들을 추출하는 것이 가능하다. 따라서, 본 발명에 의하면 기존의 SSD에 비하여 필요한 파라미터의 개수를 획기적으로 줄일 수 있다.

한편, 백본 네트워크부(120)는 다음과 같이 나타낼 수 있다.

여기서, {f₁, f₂, ... , f_N}는 각각의 제1 특징맵이고, N은 1 이상의 정수, F(·)는 백본 네트워크부(120)의 특징맵 추출연산에 해당한다. 또한, E(·)는 특징 추출부(110)의 특징추출연산, x는 대상 이미지, f₀는 특징이미지에 해당한다. 즉, 출력값을 다시 입력값으로 되먹이는 방식으로 반복하여 복수의 제1 특징맵들을 생성할 수 있다.

추가적으로, 백본 네트워크부(120) 내에 포함된 역잔류모듈(121)들은, 제1 역잔류모듈과 제2 역잔류모듈로 구분될 수 있다. 여기서, 제1 역잔류모듈은 백본 네트워크부(120) 내에서 가장 먼저 연산되는 것이고, 제2 역잔류모듈은 제1 역잔류모듈 이후에 순차적으로 연산되는 것일 수 있다. 구체적으로, 도5에 도시한 바와 같이, 한 개의 제1 역잔류모듈과 복수의 제2 역잔류모듈들을 포함하도록 각각 백본 네트워크부(120)를 구현할 수 있다. 도3에는 제1 역잔류모듈과 제2 역잔류모듈의 예시가 나타나 있으며, 여기서 도3(a)는 제1 역잔류모듈, 도3(b)는 제2 역잔류모듈의 일 예에 해당한다.

여기서, 각각의 역잔류모듈은 깊이 기반 분리 컨볼루션(depth-wise separable convolution) 연산을 수행할 수 있으며, 이를 통해 특징맵추출연산시 필요한 연산량을 감소시킬 수 있다.

구체적으로, 제1 역잔류모듈의 경우, 도3(a)에 도시한 바와 같이, 3×3 컨볼루션 레이어, 배치 정규화 레이어, 활성화 레이어, 1×1 컨볼루션 레이어, 배치 정규화 레이어를 포함할 수 있다. 여기서, 특징추출부(110)가 특징 이미지의 채널폭을 3에서 h로 확장하였으므로, 3×3 컨볼루션 레이어에서는 깊이 기반의 컨볼루션(depth-wise convolution) 연산을 수행하고, 이후 1×1 컨볼루션 레이어를 통해 포인트 기반 컨볼루션(point-wise convolution) 연산을 수행하여 채널폭을 h에서 c로 다시 축소시킬 수 있다.

또한, 제2 역잔류모듈은, 도3(b)에 도시한 바와 같이, 1×1 컨볼루션 레이어, 배치 정규화 레이어, 활성화 레이어, 3×3 컨볼루션 레이어, 배치 정규화 레이어, 활성화 레이어, 1×1 컨볼루션 레이어 및 배치 정규화 레이어를 순차적으로 포함하여, 깊이 기반 분리 컨볼루션 연산을 수행할 수 있다. 즉, 첫번째 1×1 컨볼루션 레이어에서 포인트 기반 컨볼루션 연산을 수행하여 채널 폭을 c에서 h로 확장시키고, 이후 3×3 컨볼루션 레이어에서 확장된 채널 폭에 대한 깊이 기반 컨볼루션 연산을 수행한 후, 다시 1×1 컨볼루션 레이어에서 채널 폭을 h에서 c로 줄이는 포인트 기반 컨볼루션 연산을 수행할 수 있다.

한편, 제1 역잔류모듈 및 제2 역잔류모듈에 포함된 각각의 활성화 레이어의 경우, 활성함수(activation function)로 PReLU(Parametric Rectified Linear Unit) 또는 Leaky-ReLU를 이용할 수 있다. 종래에는 ReLU(Rectified Linear Unit)를 활성함수로 사용하였으나, ReLU는 특성상 음의 값을 0으로 설정하므로 반복적인 특징맵추출연산시 정보의 손실이 발생하는 등의 문제점이 발생할 수 있다. 따라서, 여기서는 음의 값을 반영할 수 있는 PReLU(Parametric Rectified Linear Unit) 또는 Leaky-ReLU를 활성함수로 이용하여, 보다 정확한 객체인식이 가능하도록 할 수 있다.

추가적으로, 백본 네트워크부(120)는 복수의 역잔류모듈 중에서, 가장 마지막에 연산되는 역잔류모듈(121)의 스트라이드(stride)를 2로 설정하고, 나머지 역잔류모듈(121)들의 스트라이드는 1로 설정할 수 있다. 이 경우, 새로 생성되는 제1 특징맵의 해상도를 절반으로 줄일 수 있다. 예를들어, 특징 이미지의 해상도가 320×320인 경우, 제1 특징맵 f1의 해상도는 160×160로 줄어들고, 이후 제1 특징맵 f2, f3, f4, f5, f6의 해상도는 각각 80×80, 40×40, 20×20, 10×10, 5×5로 생성될 수 있다. 이러한 특징맵의 개수는 속도와 연산량을 희생하여 좀 더 작은 얼굴들을 검출할 것인지, 아니면 빠른 속도와 적은 연산량을 확보할 것인지에 따라 많게, 혹은 적게 조절이 가능하다.

여기서, 특징맵의 해상도가 절반으로 줄어들게 되면, 특징맵으로부터 상대적으로 큰 크기의 객체를 인식하는 것이 가능하다. 객체 검출시에는 미리 설정된 경계박스 내에 객체가 포함되는지를 판별하는 방식을 활용할 수 있으며, 이때 특징맵의 해상도가 절반으로 줄어들게 되면, 경계박스가 커버하는 영역이 2배로 넓어질 수 있다. 따라서, 이전에는 경계박스 내에 전부 포함되지 않은 객체가 경계박스 내에 전부 포함되므로, 상대적으로 큰 크기의 객체를 검출하는 것이 가능하다. 즉, 해상도가 높은 특징맵에서는 상대적으로 작은 크기의 객체를 검출하고, 해상도가 낮은 특징맵에서는 상대적으로 큰 크기의 객체를 검출할 수 있다.

이와 같이, 백본 네트워크부(120)는 생성하는 각각의 제1 특징맵들의 해상도를 변경함으로써, 대상 이미지 내에 포함된 다양한 크기의 객체들을 인식할 수 있다.

실시예에 따라서는, 백본네트워크부(120)에 포함되는 복수의 역잔류모듈의 마지막에 스트라이드가 2인 3×3 컨볼루션 필터를 추가하여 백본네트워크부(120)가 생성하는 특징맵들의 해상도를 절반으로 줄이는 것도 가능하다.

한편, 도6에 도시한 바와 같이, 백본 네트워크부(120)에서 생성한 제1 특징맵들을 이용하여 객체를 검출하는 것도 가능하다. 다만, 제1 특징맵을 이용하는 경우 상대적으로 크기가 작은 객체를 검출하기 어려운 문제가 발생할 수 있다. 즉, 상대적으로 크기가 작은 객체들은 낮은 레벨의 제1 특징맵에서 검출되는 것으로, 낮은 레벨의 제1 특징맵들은 역잔류모듈들이 충분한 깊이만큼 형성되지 않은 상태에서 생성될 수 있다.

이를 해결하기 위하여, 본 발명의 일 실시예에 의한 객체인식장치는 업샘플링부(130)를 더 포함할 수 있다. 즉, FPN(Feature Pyramid Netwokr) 구조를 도입하여, 낮은 레벨의 특징맵에도 충분한 역잔류모듈들의 깊이를 형성하도록 할 수 있다.

구체적으로, 업샘플링부(130)는 직전에 생성한 제2 특징맵을 업샘플링(upsampling)하고, 업샘플링된 결과와 동일한 해상도를 가지는 제1 특징맵을 스킵 커넥션 기법(skip connection)으로 연결하는 방식으로 제2 특징맵을 생성할 수 있다. 이때, 업샘플링부(130)는 복수의 제1 특징맵 중에서 해상도가 가장 낮은 제1 특징맵을 최초의 제2 특징맵으로 설정할 수 있다.

즉, 도1에 도시한 바와 같이, 가장 마지막에 생성된 제1 특징맵 f6를 첫번째 제2 특징맵 g1으로 설정할 수 있으며, 이후 제2 특징맵 g1를 업샘플링하고, 업샘플링된 결과를 이전의 제1 특징맵 f5와 더하여 제2 특징맵 g2를 생성할 수 있다. 여기서, 제2 특징맵 g2는 제1 특징맵 f5와 동일한 해상도를 가질 수 있다.

또한, 업샘플링부(130)는 제2 특징맵 g2를 업샘플링하고, 이를 동일한 해상도를 가지는 제1 특징맵 f4와 더하여 제2 특징맵 g3를 생성할 수 있으며, 이후 동일한 방식으로 반복하여 나머지 제2 특징맵들을 생성할 수 있다.

여기서, 업샘플링부(130)의 동작은 다음의 수식으로 표시할 수 있으며, {g₁, g₂, ... , g_N}는 각각의 제2 특징맵, {f₁, f₂, ... , f_N}는 각각의 제1 특징맵이고, N은 1 이상의 정수, U_i(·)는 업샘플링 함수에 해당한다.

한편, 도1에 도시한 바와 같이, 업샘플링부(130)는 업샘플링모듈(131)을 포함할 수 있으며, 업샘플링모듈(131)은 각각의 제2 특징맵들에 대한 업샘플링을 수행할 수 있다. 도4(a)를 참조하면 업샘플링모듈(131)은 쌍선형 업샘플 레이어(bilinear upsample layer), 3×3 컨볼루션 레이어, 1×1 컨볼루션 레이어, 배치 정규화 레이어 및 활성함수 레이어를 포함할 수 있다.

분류부(140)는 복수의 제2 특징맵 내를 이동하는 각각의 경계박스(boundary box)를 이용하여, 경계박스 내의 객체 포함여부를 판별할 수 있다. 여기서, 분류부(140)가 감지하는 객체는 얼굴(face)일 수 있다.

또한, 위치감지부(150)는 분류부(140)에서 객체를 감지한 경우, 제2 특징맵 내의 경계박스를 대상 이미지 내의 위치로 회귀시켜 객체의 위치정보를 추출할 수 있다. 즉, 대상 이미지 내에 포함된 객체의 위치정보를 제공할 수 있으며, 위치정보를 이용하여 대상 이미지 내에 객체의 위치를 표시할 수 있다.

한편, 도4(b) 및 도4(c)는 분류부(140) 및 위치감지부(150)에 각각 대응하는 것으로, 분류부(140) 및 위치감지부(150)는 3×3 컨볼루션 필터로 동작할 수 있다. 분류부(140)의 경우, 경계박스 내에 객체가 포함되는 경우와 포함되지 않은 경우의 2가지 경우를 표시하므로, 출력채널은 2개일 수 있다. 여기서 출력채널이 4개인 경우에는 맥스아웃(Maxout)을 이용하여 4개의 채널 중에서 2개의 채널을 선택할 수 있으며, 이를 통해 상대적으로 작은 크기의 객체들에 대한 긍정오류(false positive) 비율을 낮출 수 있다.

또한, 위치감지부(150)의 경우, 출력채널은 4개의 차원을 포함할 수 있으며, 각각은 경계박스의 폭, 높이, 중심점 위치좌표 등일 수 있다.

한편, 본 발명의 일 실시예에 의한 객체인식장치는, 멀티태스크 손실 함수(multitask loss function)를 이용하여 동시에 학습될 수 있다. 즉, 특징 추출부(110), 백본 네트워크부(120), 업샘플링부(130), 분류부(140) 및 위치감지부(150) 등의 구성은 멀티태스크 손실 함수를 이용하여 동시에 학습될 수 있다.

구체적으로, 멀티태스크 손실 함수는

일 수 있다. 여기서, l_c는 분류손실(classification loss), l_r은 회귀손실(regression loss), j는 경계 박스(anchor box)의 인덱스, r_j ^*는 상기 경계 박스에 대응하는 실측값(ground truth)이다. 또한, c_j ^* 는 0 또는 1로 설정되는 것으로 경계박스의 자카드 오버랩(Jaccard overlap)이 기준값 t 이상이면 1로 설정되고, 기준값 t 미만이면 0으로 설정될 수 있다. 또한, N_cls는 학습시 사용된 유사 샘플(positive sample) 및 비유사 샘플(negative sample)의 전체 개수, N_reg = ∑_j c_j ^*, λ는 임의의 변수일 수 있다. 여기서, 회귀 손실은 유사 샘플에 대하여만 연산되므로, N_reg 는 ∑_j c_j ^*을 이용하여 계산하는 것이 가능하다. 또한, 분류손실은 크로스 엔트로피 손실(cross-entropy loss), 상기 회귀손실은 스무스 l1 손실(smooth l1 loss)로 설정될 수 있다.

이후, 입력되는 학습데이터들을 이용하여, 멀티태스크 손실 함수의 분류손실 및 회귀손실이 최소가 되도록 객체인식장치의 각 구성들의 파라미터를 설정할 수 있다.

여기서, 본 발명의 일 실시예에 의한 객체인식장치는 백본네트워크부(120)의 반복적인 재사용을 이용하여 특징맵을 생성하므로, 종래의 객체인식장치에 비하여 필요한 파라미터의 개수를 획기적으로 줄일 수 있다. 또한, 파라미터의 개수를 줄인만큼 특징맵 추출을 위한 역잔류모듈 등을 추가할 수 있으므로, 보다 정확한 객체인식을 구현할 수 있다.

또한, 본 발명의 일 실시예에 의한 백본네트워크(120)는 다양한 크기의 객체들을 반복하여 학습하여 생성되므로, 상대적으로 작은 객체들에 대한 인식률을 향상시키는 것이 가능하다.

도5는 본 발명의 일 실시예에 의한 백본 네트워크의 구조를 나타내는 블록도이다. 도5에는 백본 네트워크의 3가지 실시예가 나타나 있으며, 각각의 실시예는 도5(a), 도5(b) 및 도5(c)에 대응한다.

첫번째 실시예는 출력 채널의 개수가 32개이고, 두번째 실시예는 출력 채널의 개수가 48개, 세번째 실시예는 출력채널의 개수가 64개에 해당한다. 반면에, 첫번째 실시예에서는 7개의 역잔류모듈을 포함하고, 두번째와 세번째 실시예에서는 각각 5개의 역잔류모듈을 포함한다. 이때, 첫번째 실시예는 6만개의 파라미터, 두번째 실시예는 10만개의 파라미터, 세번째 실시예는 16만개의 파라미터를 포함할 수 있다. 여기서, 두번째 실시예와 세번째 실시예의 경우, 출력 채널수가 많은 대신에 역잔류모듈의 수를 줄여서 파라미터의 개수를 줄이도록 하였다.

각각의 실시예들에 대한 객체인식성능은, 세번째 실시예가 가장 뛰어난 성능을 보였으며, 이후 두번째 실시예, 첫번째 실시예의 순서로 나타났다. 이는 채널의 개수가 역잔류모듈의 개수 등 깊이보다 더 중요한 요소에 해당함을 나타낸다.

도7은 본 발명의 일 실시예에 의한 객체인식방법을 나타내는 순서도이다.

도7을 참조하면, 본 발명의 일 실시예에 의한 객체인식방법은, 특징이미지 생성단계(S110), 제1 특징맵 생성단계(S120) 및 객체인식단계(S130)를 포함할 수 있으며, 각 단계들은 객체인식장치에 의하여 수행될 수 있다.

이하 도7을 참조하여 본 발명의 일 실시예에 의한 객체인식방법을 설명한다.

특징이미지 생성단계(S110)에서는, 입력받은 대상이미지에 특징추출연산을 수행하여 특징이미지를 생성할 수 있다. 여기서, 특징이미지는 3×3 컨볼루션 연산을 통하여 생성할 수 있으며, 이때, 3×3 컨볼루션 연산의 스트라이드를 2로 설정하여 특징 이미지의 해상도를 절반으로 낮출 수 있다. 또한, 대상이미지에 포함된 RGB 3개의 채널을 h개로 확장시켜 특징 이미지를 생성할 수 있다.

제1 특징맵 생성단계(S120)에서는, 특징이미지에 대한 특징맵추출연산을 반복적으로 수행하고, 특징맵 추출연산을 적용한 횟수에 따라 각각 상이한 해상도를 가지는 복수의 제1 특징맵을 생성할 수 있다.

여기서, 특징맵추출연산은 미리 설정된 복수의 역잔류모듈들을 모두 포함하는 하나의 세트에 대한 연산에 대응하는 것일 수 있다. 즉, 특징맵추출연산을 1회 수행하면 연산결과로 제1 특징맵 f1을 생성할 수 있으며, 제1 특징맵 f1에 대해 다시 특징맵추출연산을 수행하여 제1 특징맵 f2를 생성할 수 있다. 이후 동일한 방식으로 반복하여, 제1 특징맵 f3, f4, f5, f6를 순차적으로 생성할 수 있다. 이 경우, 동일한 특징맵추출연산을 반복적으로 재사용하므로, 특징맵추출연산을 위한 파라미터만을 설계하여도 복수의 특징맵들을 추출하는 것이 가능하다.

여기서, 각각의 역잔류모듈은 깊이 기반 분리 컨볼루션(depth-wise separable convolution) 연산을 수행하는 것일 수 있으며, 이를 통해 특징맵추출연산시 필요한 연산량을 감소시킬 수 있다. 한편, 역잔류모듈들은 활성함수(activation function)로 PReLU(Parametric Rectified Linear Unit) 또는 Leaky-ReLU를 이용하는 것일 수 있다.

추가적으로, 복수의 역잔류모듈 중에서 가장 마지막에 연산되는 역잔류모듈에 대하여는 스트라이드를 2로 설정하고, 나머지 역잔류모듈들의 스트라이드는 1로 설정할 수 있다. 즉, 특징맵추출연산시마다 제1 특징맵의 해상도를 절반으로 줄일 수 있다. 이와 같이, 각각의 제1 특징맵들의 해상도를 변경함으로써, 대상 이미지 내에 포함된 다양한 크기의 객체들을 검출하는 것이 가능하다.

객체인식단계(S130)에서는, 복수의 제1 특징맵 내를 이동하는 각각의 경계박스를 이용하여, 상기 경계박스 내의 객체 포함여부를 판별할 수 있다. 또한, 객체가 포함된 경우에는 제1 특징맵 내의 경계박스를 대상 이미지 내의 위치로 회귀시켜 객체의 위치정보를 추출할 수 있다. 여기서, 객체인식단계(S130)는 3×3 컨볼루션 필터를 이용하여 구현할 수 있으며, 위치정보에는 경계박스의 폭, 높이, 중심점 위치좌표 등이 포함될 수 있다.

도8은 본 발명의 다른 실시예에 의한 객체인식방법을 나타내는 순서도이다.

도8을 참조하면, 본 발명의 다른 실시예에 의한 객체인식방법은, 도7의 객체인식방법과 비교할 때, 초기설정단계(S130) 및 제2 특징맵 생성단계(S140)를 더 포함할 수 있다.

즉, 도7과 같이, 제1 특징맵들을 이용하여 객체를 검출하는 것도 가능하지만, 제1 특징맵을 이용하는 경우 상대적으로 크기가 작은 객체를 검출하기 어려운 문제가 발생할 수 있다.

이를 해결하기 위하여, 본 발명의 다른 실시예에 의한 객체인식방법은 초기설정단계(S130) 및 제2 특징맵 생성단계(S140)를 더 포함하여, FPN(Feature Pyramid Netwokr) 구조를 도입할 수 있다.

구체적으로, 초기설정단계(S130)에서는 복수의 제1 특징맵 중에서 해상도가 가장 낮은 제1 특징맵을 최초의 제2 특징맵으로 설정할 수 있으며, 이후 제2 특징맵 생성단계(S130)에서는 직전에 생성한 제2 특징맵을 업샘플링(upsampling)하고, 상기 업샘플링된 결과와 동일한 해상도를 가지는 제1 특징맵을 스킵 커넥션 기법(skip connection)으로 연결하여 제2 특징맵을 생성할 수 있다.

즉, 가장 마지막에 생성된 제1 특징맵 f6를 첫번째 제2 특징맵 g1으로 설정할 수 있으며, 이후 제2 특징맵 g1를 업샘플링하고, 업샘플링된 결과를 이전의 제1 특징맵 f5와 더하여 제2 특징맵 g2를 생성할 수 있다. 여기서, 제2 특징맵 g2는 제1 특징맵 f5와 동일한 해상도를 가질 수 있다.

또한, 제2 특징맵 g2를 업샘플링하고, 이를 동일한 해상도를 가지는 제1 특징맵 f4와 더하여 제2 특징맵 g3를 생성할 수 있으며, 이후 동일한 방식으로 반복하여 나머지 제2 특징맵들을 생성할 수 있다.

전술한 본 발명은, 프로그램이 기록된 매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 매체는, 컴퓨터로 실행 가능한 프로그램을 계속 저장하거나, 실행 또는 다운로드를 위해 임시 저장하는 것일 수도 있다. 또한, 매체는 단일 또는 수개 하드웨어가 결합된 형태의 다양한 기록수단 또는 저장수단일 수 있는데, 어떤 컴퓨터 시스템에 직접 접속되는 매체에 한정되지 않고, 네트워크 상에 분산 존재하는 것일 수도 있다. 매체의 예시로는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등을 포함하여 프로그램 명령어가 저장되도록 구성된 것이 있을 수 있다. 또한, 다른 매체의 예시로, 애플리케이션을 유통하는 앱 스토어나 기타 다양한 소프트웨어를 공급 내지 유통하는 사이트, 서버 등에서 관리하는 기록매체 내지 저장매체도 들 수 있다. 따라서, 상기의 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니되고 예시적인 것으로 고려되어야 한다. 본 발명의 범위는 첨부된 청구항의 합리적 해석에 의해 결정되어야 하고, 본 발명의 등가적 범위 내에서의 모든 변경은 본 발명의 범위에 포함된다.

본 발명은 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니다. 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 있어, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 본 발명에 따른 구성요소를 치환, 변형 및 변경할 수 있다는 것이 명백할 것이다.

100: 객체인식장치 110: 특징추출부
120: 백본네트워크부 121: 역잔류모듈
130: 업샘플링부 131: 업샘플링모듈
140: 분류부 150: 위치감지부

Claims

대상 이미지를 입력받으면, 특징추출연산을 수행하여 특징이미지를 생성하는 특징 추출부(feature extraction block); 및
상기 특징이미지에 특징맵추출연산을 반복적으로 수행하여, 상기 특징맵 추출연산을 적용한 횟수에 따라 각각 상이한 해상도를 가지는 복수의 제1 특징맵을 생성하는 백본 네트워크부(backbone network)를 포함하는 객체인식장치.
제1항에 있어서, 상기 백본 네트워크부는

를 이용하여 상기 제1 특징맵 {f₁, f₂, ... , f_N}을 각각 생성하고, 여기서, N은 1 이상의 정수, F(·)는 상기 백본 네트워크부의 특징맵 추출연산, E(·)는 특징 추출부의 특징추출연산, x는 대상 이미지, f₀는 상기 특징이미지인 것을 특징으로 하는 객체인식장치.
제1항에 있어서, 상기 백본 네트워크부는
복수의 역잔류모듈(inverted residual module)을 포함하고, 상기 특징이미지를 상기 복수의 역잔류모듈에 순차적으로 적용하여 상기 특징맵추출연산을 수행하는 것을 특징으로 하는 객체인식장치.
제3항에 있어서, 상기 역잔류모듈은
깊이 기반 분리 컨볼루션(depth-wise separable convolution) 연산을 포함하고, 활성함수(activation function)로 PReLU(Parametric Rectified Linear Unit) 또는 Leaky-ReLU를 이용하는 것을 특징으로 하는 객체인식장치.
제3항에 있어서, 상기 백본 네트워크부는
복수의 역잔류모듈 중에서, 가장 마지막에 연산되는 역잔류모듈의 스트라이드(stride)를 2로 설정하고, 나머지 역잔류모듈의 스트라이드는 1로 설정하는 것을 특징으로 하는 객체인식장치.
제1항에 있어서,
상기 복수의 제1 특징맵 내를 이동하는 각각의 경계박스를 이용하여, 상기 경계박스 내의 객체 포함여부를 판별하는 분류부(classification head); 및
상기 객체가 포함된 경우에는, 상기 제1 특징맵 내의 경계박스를 상기 대상 이미지 내의 위치로 회귀시켜 상기 객체의 위치정보를 추출하는 위치감지부(regression head)를 더 포함하는 것을 특징으로 하는 객체인식장치.
제6항에 있어서,
상기 특징 추출부, 백본 네트워크부, 상기 분류부 및 위치감지부는 멀티태스크 손실 함수(multitask loss function)를 이용하여 동시에 학습되는 것을 특징으로 하는 객체인식장치.
제1항에 있어서,
직전에 생성한 제2 특징맵을 업샘플링(upsampling)하고, 상기 업샘플링된 결과와 동일한 해상도를 가지는 제1 특징맵을 스킵 커넥션 기법(skip connection)으로 연결하여 제2 특징맵을 생성하는 업샘플링부를 더 포함하는 것으로,
상기 업샘플링부는
복수의 제1 특징맵 중에서 해상도가 가장 낮은 제1 특징맵을 최초의 제2 특징맵으로 설정하는 것을 특징으로 하는 객체인식장치.
입력받은 대상이미지에 특징추출연산을 수행하여 특징이미지를 생성하는 단계;
상기 특징이미지에 특징맵추출연산을 반복적으로 수행하고, 상기 특징맵 추출연산을 적용한 횟수에 따라 각각 상이한 해상도를 가지는 복수의 제1 특징맵을 생성하는 단계; 및
상기 복수의 제1 특징맵 내를 이동하는 각각의 경계박스를 이용하여, 상기 경계박스 내의 객체 포함여부를 판별하고, 상기 객체가 포함된 경우에는 상기 제1 특징맵 내의 경계박스를 상기 대상 이미지 내의 위치로 회귀시켜 상기 객체의 위치정보를 추출하는 단계를 포함하는 객체인식방법.
입력받은 대상이미지에 특징추출연산을 수행하여 특징이미지를 생성하는 단계;
상기 특징이미지에 특징맵추출연산을 반복적으로 수행하고, 상기 특징맵 추출연산을 적용한 횟수에 따라 각각 상이한 해상도를 가지는 복수의 제1 특징맵을 생성하는 단계;
복수의 제1 특징맵 중에서 해상도가 가장 낮은 제1 특징맵을 최초의 제2 특징맵으로 설정하는 단계;
직전에 생성한 제2 특징맵을 업샘플링(upsampling)하고, 상기 업샘플링된 결과와 동일한 해상도를 가지는 제1 특징맵을 스킵 커넥션 기법(skip connection)으로 연결하여 제2 특징맵을 생성하는 단계; 및
상기 복수의 제2 특징맵 내를 이동하는 각각의 경계박스를 이용하여, 상기 경계박스 내의 객체 포함여부를 판별하고, 상기 객체가 포함된 경우에는 상기 제2 특징맵 내의 경계박스를 상기 대상 이미지 내의 위치로 회귀시켜 상기 객체의 위치정보를 추출하는 단계를 포함하는 객체인식방법.
하드웨어와 결합되어, 제9항 내지 제10항 중 어느 한 항의 객체 인식방법을 실행시키기 위하여 매체에 저장된 컴퓨터 프로그램.