KR20230100927A

KR20230100927A - 회전형 바운딩박스 기반 객체 검출 딥러닝 네트워크

Info

Publication number: KR20230100927A
Application number: KR1020210190613A
Authority: KR
Inventors: 박종희; 이상설; 장성준
Original assignee: 한국전자기술연구원
Priority date: 2021-12-29
Filing date: 2021-12-29
Publication date: 2023-07-06
Also published as: WO2023127995A1

Abstract

회전형 바운딩박스 기반 객체 검출 딥러닝 네트워크가 제공된다. 본 발명의 실시예에 따른 객체 검출 방법은, 영상을 분석하여 객체의 클래스, 위치, 크기와 오리엔테이션(Orientation)을 검출하도록 학습된 객체 검출 네트워크를 이용하여 입력된 영상으로부터 객체를 검출한다. 이에 의해, 객체 검출시 회전형 BB를 이용하여 객체의 클래스, 위치, 크기 외에 오리엔테이션 까지 검출함으로써, 객체 검출 결과를 활용하는 어플리케이션이 오리엔테이션 정보를 이용하여 보다 정교한 기능 수행이나 향상된 서비스 제공이 가능해진다.

Description

회전형 바운딩박스 기반 객체 검출 딥러닝 네트워크{Rotational Bounding Box-based Object Detection Deep Learning Network}

본 발명은 머신러닝 기술에 관한 것으로, 더욱 상세하게는 딥러닝 네트워크 기반으로 객체를 검출하기 위한 방법에 관한 것이다.

2차원 영상에서 객체 검출을 수행할 때 영상 좌표계와 평행한 직사각형 형태의 BB(Bounding Box) 만을 검출하고 있는데, 도 1에 도시된 바와 같이 다수의 객체들이 혼재하고 있는 상황에서는 검출에 실패하는 경우가 빈번하다.

또한, 검출에 성공한다 하더라도 객체의 오리엔테이션(orientation, 방향)을 판단할 수 없다. 하지만, 2차원 객체 검출 이후 사용되는 응용 어플리케이션은 검출된 객체의 오리엔테이션을 필요로 하는 경우가 있다.

예를 들면 도 2에 도시된 바와 같이 스마트 팩토리에서 많이 사용되는 객체 피킹 로봇 암의 경우 혼재된 객체에서 특정 객체만을 집어내야 하기 때문에, 객체의 오리엔테이션은 매우 중요한 정보가 된다.

현재 객체의 오리엔테이션 정보를 예측하기 위해, 도 3과 같이 2차원 영상에서 3차원 BB를 추정하는 알고리즘을 사용하는 사례도 있다. 하지만 이는 2차원 객체 검출에 비해 현저히 많은 연산량을 필요로 하며, 이를 실시간으로 구동하기 위해서는 고가의 GPU가 탑재되어야 하기 때문에 상용화/산업화에 있어 효율성이 떨어진다는 문제가 있다.

본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은, 객체 검출시 회전형 BB를 이용하여 객체의 클래스, 위치, 크기 외에 오리엔테이션 까지 검출할 수 있는 객체 검출 네트워크 및 이를 이용한 객체 검출 방법과 시스템을 제공함에 있다.

상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른, 객체 검출 방법은, 영상을 입력받는 단계; 영상을 분석하여 객체의 클래스, 위치, 크기와 오리엔테이션(Orientation)을 검출하도록 학습된 객체 검출 네트워크를 이용하여, 입력된 영상으로부터 객체를 검출하는 단계; 및 객체 검출 결과를 출력하는 단계;를 포함한다.

객체의 위치는, 객체의 BB(Bounding Box)의 좌표로 표현되고, 객체의 크기는, 객체의 BB의 길이로 표현되며, 객체의 오리엔테이션은, 객체의 BB의 오리엔테이션으로 표현될 수 있다.

BB의 오리엔테이션은, BB가 반시계 방향으로 회전한 각도로 표현될 수 있다. 각도는, radian으로 표현될 수 있다.

객체 검출 네트워크는, 학습 영상으로부터 검출한 객체의 BB인 제1 BB와 GT(GroundTruth) BB인 제2 BB 간의 Loss가 줄어드는 방향으로 학습되되, 제1 BB의 오리엔테이션과 제2 BB의 오리엔테이션 간의 Loss는, 제1 BB과 제2 BB의 IoU(Intersection over Union)로 계산될 수 있다.

제1 BB과 제2 BB의 IoU는, 제1 BB의 넓이, 제2 BB의 넓이, 제1 BB와 제2 BB의 교차점들, 제1 BB 내부에 있는 제2 BB의 꼭짓점들, 제2 BB 내부에 있는 제1 BB의 꼭짓점들을 기초로 계산된 교차 넓이를 기초로 계산될 수 있다.

교차 넓이는, 아래의 수학식을 통해 계산되며,

|{(x_P1y_P2 - x_P2y_P1) + (x_P2y_P3 - x_P3y_P2) + (x_PN+My_P1 - x_P1y_PN+M)}/2|

P1(x_P1, y_P1),.. P_N+M(x_PN+M, y_PN+M)은,

제1 BB와 제2 BB의 교차점들, 제1 BB 내부에 있는 제2 BB의 꼭짓점들, 제2 BB 내부에 있는 제1 BB의 꼭짓점들을 반시계 방향으로 정렬한 것일 수 있다.

한편, 본 발명의 다른 실시예에 따른, 객체 검출 시스템은, 영상을 입력받는 입력부; 입력부를 통해 입력되는 영상을 분석하여 객체의 클래스, 위치, 크기와 오리엔테이션(Orientation)을 검출하도록 학습된 객체 검출 네트워크를 이용하여, 입력된 영상으로부터 객체를 검출하는 프로세서; 및 프로세서에 의한 객체 검출 결과를 출력하는 출력부;를 포함한다.

이상 설명한 바와 같이, 본 발명의 실시예들에 따르면, 객체 검출시 회전형 BB를 이용하여 객체의 클래스, 위치, 크기 외에 오리엔테이션 까지 검출함으로써, 객체 검출 결과를 활용하는 어플리케이션이 오리엔테이션 정보를 이용하여 보다 정교한 기능 수행이나 향상된 서비스 제공이 가능해진다.

또한, 본 발명의 실시예들에 따르면, 기존 2차원 객체 검출 네트워크에 큰 변경 없이 구현 가능하기 때문에, 모바일 기기나 엣지 서버 등의 디바이스에서도 실시간으로 적용하는 것이 가능하다.

도 1. 일반적인 2차원 객체 검출 결과
도 2. 객체 피킹을 위해 오리엔테이션이 필요한 로봇 암 예시
도 3. 3차원 객체 검출
도 4. 회전형 객체 검출 결과
도 5,6. 회전된 BB 간 IoU
도 7. 회전된 BB 간 IoU 계산 방법
도 8. 본 발명의 실시예에 따른 객체 검출 시스템

이하에서는 도면을 참조하여 본 발명을 보다 상세하게 설명한다.

본 발명의 실시예에서는 회전형 BB(Bounding Box) 기반의 객체 검출 딥러닝 네트워크와 이를 활용한 객체 검출 방법 및 시스템을 제시한다. 딥러닝 네트워크를 기반으로 객체의 클래스, 위치, 크기 외에 오리엔테이션(orientation, 방향) 까지 검출하는 네트워크이다.

기존 3차원 객체 검출에 비해 매우 적은 연산량으로, 검출한 객체의 오리엔테이션까지 추정하는 것이 가능하게 한다.

객체의 오리엔테이션을 함께 검출하기 위해 BB 정보는 기존과 다르게 5차원 벡터(x, y, width, height, orientation)로 구성하여야 한다. 여기서, x,y는 BB의 중심점, 즉, 객체의 위치를 나타내고, width, height는 BB의 너비와 높이, 즉, 객체의 크기를 나타낸다.

마지막으로 추가되는 orientation은 영상 좌표계에서 BB가 반시계 방향으로 회전한 각도, 즉, 객체의 오리엔테이션을 나타내는데, 단위는 degree 가 아닌 radian을 활용한다 .이는 최적화 알고리즘에서 보다 빠르게 수렴하도록 하기 위함이다.

따라서, 본 발명의 실시예에 따른 객체 검출 방법 및 시스템에 적용되는 객체 검출 네트워크는 입력 영상을 분석하여 객체 검출 결과로써, 객체의 클래스, 객체의 위치와 크기 정보(BB의 x,y,width,height) 외에 객체의 오리엔테이션 까지 출력한다고 할 수 있다.

도 4에는 본 발명의 실시예에 적용가능한 객체 검출 네트워크를 활용한 객체 검출 결과를 나타내었다. 도시된 바와 같이, BB의 오리엔테이션으로 객체의 오리엔테이션 까지 나타났음을 확인할 수 있다.

한편, 본 발명의 실시예에 적용가능한 객체 검출 네트워크는 학습 영상으로부터 검출한 객체의 BB와 GT(Ground Truth) BB 간의 Loss를 줄이는 방향으로 학습된다.

객체의 위치 정보와 크기 정보인 BB의 x, y, width, height의 Loss 함수는 기존과 동일하게 구현하면 된다. 하지만, 객체 검출 네트워크가 검출한 BB와 GT BB의 오리엔테이션에 Loss가 있다면, 도 5와 도 6에 도시된 바와 같이, 두 BB 간의 IoU(Intersection over Union)가 사각형이 아닌 다각형 형태로 존재하기 때문에, 기존의 IoU 기법을 그대로 활용할 수 없다.

이에 따라, 본 발명의 실시에에서 오리엔테이션에 대한 Loss는 L2 Norm 기반 Loss를 활용하며, 구체적인 방법은 도 7에 도시된 바와 같다. 오리엔테이션에 의해 IoU가 사각형이 아닌 두 BB 간 IoU를 계산하기 위한 방법이다.

입력은 2개의 회전된 BB인데, 이하에서 객체 검출 네트워크가 검출한 BB는 R₁로 GT BB는 R₂인 것으로 상정한다.

도시된 바와 같이, 먼저 IoU를 0으로 초기화한 후(1), R₁과 R₂의 교차점 I₁,I₂,...,I_N을 추출한다(2). 도 5에는 R₁과 R₂의 교차점 I₁,I₂를 추출한 결과를, 도 6에는 R₁과 R₂의 교차점 I₁,I₂,...,I₈을 추출한 결과를 예시하였다.

다음, R₁의 내부에 있는 R₂의 꼭짓점 V₁,V₂,...,V_N을 추출하고(3), R₂의 내부에 있는 R₁의 꼭짓점 V_N+1,V_N+2,...,V_M을 추출한다(4). 도 5에는 R₁의 내부에 있는 R₂의 꼭짓점 V₁과 R₂의 내부에 있는 R₁의 꼭짓점 V₂를 추출한 결과를 예시하였다. 도 6에는 R₁의 내부에 있는 R₂의 꼭짓점이 없고 R₂의 내부에도 R₁의 꼭짓점이 없어 V가 추출되지 않았다.

다음, '2'~'4'에서 추출된 교차점들과 꼭짓점들인 I₁,...,I_N,V₁,...,V_M을 반시계 방향으로 정렬해 P₁,...,P_N+M으로 표현한다.

그리고, 아래의 수학식을 이용하여 P 넓이(교차 넓이)를 계산한다(6).

P 넓이 = |{(x_P1y_P2 - x_P2y_P1) + (x_P2y_P3 - x_P3y_P2) + (x_PN+My_P1 - x_P1y_PN+M)}/2|

여기서, P1, .. , P_N는 각각 (x_P1, y_P1),.. (x_PN+M, y_PN+M)이다.

이후, 아래의 수학식을 이용하여 IoU를 계산하고(7), 결과 값을 반환한다(8).

IoU = P 넓이/(R₁ 넓이 + R₂ 넓이 - P 넓이)

도 8은 본 발명의 실시예에 따른 객체 검출 시스템의 구성을 도시한 도면이다. 본 발명의 실시예에 따른 객체 검출 시스템은, 도시된 바와 같이, 영상 입력부(110), 영상 전처리부(120), 프로세서(130), 출력부(140) 및 저장부(150)를 포함하여 구성된다.

영상 입력부(110)는 객체를 검출할 대상 영상을 입력받는다. 영상 전처리부(120)는 영상 입력부(110)를 통해 입력되는 영상에 대해 필요한 전처리, 이를 테면 정규화 처리를 수행한다.

프로세서(130)는 전술한 객체 검출 네트워크를 이용하여 영상 전처리부(120)에서 전처리된 영상으로부터 객체를 검출하고, 출력부(140)는 프로세서(130)에 의한 검출 결과를 출력한다.

전술한 바와 같이, 객체 검출 결과에는 객체의 클래스와 위치, 크기 외에 오리엔테이션 정보가 포함된다.

저장부(150)는 프로세서(130)가 객체 검출 네트워크를 실행/구동함에 있어 필요한 저장공간을 제공한다.

지금까지, 회전형 BB 기반 객체 검출 딥러닝 네트워크 및 이를 활용한 객체 검출 방법과 시스템에 대해 바람직한 실시예를 들어 상세히 설명하였다.

위 실시예에서는 오리엔테이션을 적용할 수 있는 회전형 BB의 개념을 제시하여, 객체의 오리엔테이션 까지 검출하도록 하였다. 위 기술은 2차원 객체 검출 네트워크의 큰 변경 없이 적용가능하므로, 모바일이나 엣지 타입의 디바이스에 실시간으로 적용하는 것이 가능하다.

또한, 기존 2차원 객체 검출 대비 뒤에 활용되는 어플리케이션에 오리엔테이션을 제공할 수 있어 보다 정교한 기능과 혁신적인 서비스를 창출하는 것을 가능하게 한다.

한편, 본 실시예에 따른 장치와 방법의 기능을 수행하게 하는 컴퓨터 프로그램을 수록한 컴퓨터로 읽을 수 있는 기록매체에도 본 발명의 기술적 사상이 적용될 수 있음은 물론이다. 또한, 본 발명의 다양한 실시예에 따른 기술적 사상은 컴퓨터로 읽을 수 있는 기록매체에 기록된 컴퓨터로 읽을 수 있는 코드 형태로 구현될 수도 있다. 컴퓨터로 읽을 수 있는 기록매체는 컴퓨터에 의해 읽을 수 있고 데이터를 저장할 수 있는 어떤 데이터 저장 장치이더라도 가능하다. 예를 들어, 컴퓨터로 읽을 수 있는 기록매체는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광디스크, 하드 디스크 드라이브, 등이 될 수 있음은 물론이다. 또한, 컴퓨터로 읽을 수 있는 기록매체에 저장된 컴퓨터로 읽을 수 있는 코드 또는 프로그램은 컴퓨터간에 연결된 네트워크를 통해 전송될 수도 있다.

또한, 이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.

R₁, R₂ : 회전형 BB(Bounding Box)
I₁,I₂,...,I₈ : R₁과 R₂의 교차점
V₁ : R₁의 내부에 있는 R₂의 꼭짓점
V₂ : 과 R₂의 내부에 있는 R₁의 꼭짓점
P : R₁, R₂의 교차 부분

Claims

영상을 입력받는 단계;
영상을 분석하여 객체의 클래스, 위치, 크기와 오리엔테이션(Orientation)을 검출하도록 학습된 객체 검출 네트워크를 이용하여, 입력된 영상으로부터 객체를 검출하는 단계;
객체 검출 결과를 출력하는 단계;를 포함하는 것을 특징으로 하는 객체 검출 방법.
청구항 1에 있어서,
객체의 위치는,
객체의 BB(Bounding Box)의 좌표로 표현되고,
객체의 크기는,
객체의 BB의 길이로 표현되며,
객체의 오리엔테이션은,
객체의 BB의 오리엔테이션으로 표현되는 것을 특징으로 하는 객체 검출 방법.
청구항 2에 있어서,
BB의 오리엔테이션은,
BB가 반시계 방향으로 회전한 각도로 표현되는 것을 특징으로 하는 객체 검출 방법.
청구항 2에 있어서,
각도는,
radian으로 표현되는 것을 특징으로 하는 객체 검출 방법.
청구항 2에 있어서,
객체 검출 네트워크는,
학습 영상으로부터 검출한 객체의 BB인 제1 BB와 GT(GroundTruth) BB인 제2 BB 간의 Loss가 줄어드는 방향으로 학습되되,
제1 BB의 오리엔테이션과 제2 BB의 오리엔테이션 간의 Loss는,
제1 BB과 제2 BB의 IoU(Intersection over Union)로 계산되는 것을 특징으로 하는 객체 검출 방법.
청구항 5에 있어서,
제1 BB과 제2 BB의 IoU는,
제1 BB의 넓이, 제2 BB의 넓이, 제1 BB와 제2 BB의 교차점들, 제1 BB 내부에 있는 제2 BB의 꼭짓점들, 제2 BB 내부에 있는 제1 BB의 꼭짓점들을 기초로 계산된 교차 넓이를 기초로 계산되는 것을 특징으로 하는 객체 검출 방법.
청구항 6에 있어서,
교차 넓이는,
아래의 수학식을 통해 계산되며,
|{(x_P1y_P2 - x_P2y_P1) + (x_P2y_P3 - x_P3y_P2) + (x_PN+My_P1 - x_P1y_PN+M)}/2|
P1(x_P1, y_P1),.. P_N+M(x_PN+M, y_PN+M)은,
제1 BB와 제2 BB의 교차점들, 제1 BB 내부에 있는 제2 BB의 꼭짓점들, 제2 BB 내부에 있는 제1 BB의 꼭짓점들을 반시계 방향으로 정렬한 것을 특징으로 하는 객체 검출 방법.
영상을 입력받는 입력부;
입력부를 통해 입력되는 영상을 분석하여 객체의 클래스, 위치, 크기와 오리엔테이션(Orientation)을 검출하도록 학습된 객체 검출 네트워크를 이용하여, 입력된 영상으로부터 객체를 검출하는 프로세서; 및
프로세서에 의한 객체 검출 결과를 출력하는 출력부;를 포함하는 것을 특징으로 하는 객체 검출 시스템.