KR102378887B1 - 객체 탐지에서의 둘레기반 IoU 손실함수를 통한 효율적인 바운딩 박스 회귀 학습 방법 및 장치 - Google Patents

객체 탐지에서의 둘레기반 IoU 손실함수를 통한 효율적인 바운딩 박스 회귀 학습 방법 및 장치 Download PDF

Info

Publication number
KR102378887B1
KR102378887B1 KR1020210019696A KR20210019696A KR102378887B1 KR 102378887 B1 KR102378887 B1 KR 102378887B1 KR 1020210019696 A KR1020210019696 A KR 1020210019696A KR 20210019696 A KR20210019696 A KR 20210019696A KR 102378887 B1 KR102378887 B1 KR 102378887B1
Authority
KR
South Korea
Prior art keywords
box
loss function
regression
anchor
target
Prior art date
Application number
KR1020210019696A
Other languages
English (en)
Inventor
최동완
김현준
Original Assignee
인하대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인하대학교 산학협력단 filed Critical 인하대학교 산학협력단
Priority to KR1020210019696A priority Critical patent/KR102378887B1/ko
Application granted granted Critical
Publication of KR102378887B1 publication Critical patent/KR102378887B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

객체 탐지에서의 둘레기반 IoU 손실함수를 통한 효율적인 바운딩 박스 회귀 학습 방법 및 장치가 제시된다. 본 발명에서 제안하는 객체 탐지에서의 둘레기반 IoU 손실함수를 통한 효율적인 바운딩 박스 회귀 학습 방법은 객체 탐지를 위한 신경망 학습을 위해 학습부가 클래스 분류와 바운딩 박스의 샘플인 앵커 박스의 회귀 손실 함수를 결합 학습하는 단계, 학습된 회귀 손실 함수가 앵커 박스와 타깃 박스의 겹침을 측정하기 위한 IoU(Intersection of Union) 손실과 상관관계를 갖도록 회귀 손실 함수 계산부가 학습된 회귀 손실 함수에 페널티 항을 추가하는 단계 및 회귀 손실 함수 계산부를 통해 앵커 박스와 타깃 박스를 포함하는 영역과 타깃 박스와 앵커 박스 각각의 둘레 차이를 이용하여 최종 회귀 손실 함수를 구하는 단계를 포함한다.

Description

객체 탐지에서의 둘레기반 IoU 손실함수를 통한 효율적인 바운딩 박스 회귀 학습 방법 및 장치{Method and Apparatus of Bounding Box Regression by a Perimeter-based IoU Loss Function in Object Detection}
본 발명은 객체 탐지에서의 둘레기반 IoU 손실함수를 통한 효율적인 바운딩 박스 회귀 학습 방법 및 장치에 관한 것이다.
최근 컴퓨터 비전 분야는 딥러닝의 합성곱(convolutional neural network) 신경망으로 큰 발전을 이루었으며, 이미지 속 여러 객체를 탐지하는 객체 탐지(object detection) 분야에서도 다양한 연구가 진행되고 있다.
도 1은 종래기술에 따른 회귀 손실 함수 및 IoU 손실을 설명하기 위한 도면이다.
도 1(a)는 회귀 손실 함수인 smooth L1 함수를 설명하기 위한 도면이고, 도 1(b)는 IoU 손실을 설명하기 위한 도면이다. 도 1(a)에서 Ll1 =4.47, LIoU = 0.44이고, 도 1(b)에서 Ll1 =4.47, LIoU = 0.62이다.
객체 탐지는 이미지 분류와는 달리 객체에 앵커 박스를 만들어야 하는 회귀 문제가 추가되어 분류와 회귀 손실 함수의 결합 학습(joint training)을 통해 객체 탐지를 해결한다. 이때 회귀 문제를 해결하기 위해 아래와 같이 정의된 IoU(Intersection of Union)라는 척도를 사용한다:
Figure 112021017687949-pat00001
(1)
이 식에서
Figure 112021017687949-pat00002
는 타깃 박스이고
Figure 112021017687949-pat00003
는 앵커 박스이다.
Figure 112021017687949-pat00004
은 해당 영역의 넓이를 의미한다. IoU 값은 앵커 박스와 타깃 박스 전체 영역의 넓이와 겹치는 영역의 넓이의 비율로서 이 값이 특정 임계 값보다 높으면 객체가 존재한다고 가정하고 클래스를 예측한다. 그러나 기존 객체 탐지[1, 2, 3]에서 사용된 회귀 손실 함수인 smooth L1 함수는 도 1과 같이 타깃 박스(110)와 앵커 박스(120)의 왼쪽 위, 오른쪽 밑 꼭지점들의 거리(130)를 사용하기 때문에 IoU 값과 손실 함수의 상관관계가 크지 않다는 문제점이 있다.
또한 스케일에 따른 정규화가 없어 스케일 불변성(scale invariant)를 만족하지 못하는 문제점이 있다. 객체의 스케일이 커지면 손실 함수가 커져 큰 객체에 비해 작은 객체는 잘 찾지 못하게 된다. 이에 IoU를 손실 함수에 넣어 상관관계를 향상시키고 스케일 불변성을 만족하도록 하는 연구가 시도되었다. IoU Loss[4]는 IoU를 이용한 첫 회귀 손실 함수로 회귀 손실 함수에 IoU 값을 넣어 IoU와의 상관관계를 증가시켜 회귀 문제의 성능을 개선했다. IoU Loss는 아래와 같다:
Figure 112021017687949-pat00005
(2)
이 식에서
Figure 112021017687949-pat00006
는 페널티 항으로 IoU 손실에서는 0이다.
하지만 IoU 손실은 타깃 박스(140)와 겹치지 않는 앵커 박스(150)에 대해 고려하지 않는다는 문제점이 있다.
본 발명이 이루고자 하는 기술적 과제는 객체 탐지에서의 손실함수가 IoU와의 상관관계를 갖고, 스케일 불변성을 가지며, 페널티 항을 최적화하는 데 손실함수가 0이 될 때까지 작용하는 둘레기반 IoU 손실함수를 통한 효율적인 바운딩 박스 회귀 학습 방법 및 장치를 제공하는데 있다.
일 측면에 있어서, 본 발명에서 제안하는 객체 탐지에서의 둘레기반 IoU 손실함수를 통한 효율적인 바운딩 박스 회귀 학습 방법은 객체 탐지를 위한 신경망 학습을 위해 학습부가 클래스 분류와 바운딩 박스의 샘플인 앵커 박스의 회귀 손실 함수를 결합 학습하는 단계, 학습된 회귀 손실 함수가 앵커 박스와 타깃 박스의 겹침을 측정하기 위한 IoU(Intersection of Union) 손실과 상관관계를 갖도록 회귀 손실 함수 계산부가 학습된 회귀 손실 함수에 페널티 항을 추가하는 단계 및 회귀 손실 함수 계산부를 통해 앵커 박스와 타깃 박스를 포함하는 영역과 타깃 박스와 앵커 박스 각각의 둘레 차이를 이용하여 최종 회귀 손실 함수를 구하는 단계를 포함한다.
회귀 손실 함수 계산부를 통해 앵커 박스와 타깃 박스를 포함하는 영역과 타깃 박스와 앵커 박스 각각의 둘레 차이를 이용하여 최종 회귀 손실 함수를 구하는 단계는 IoU와의 상관관계를 갖고, 스케일 불변성을 가지며, 앵커 박스와 타깃 박스가 완벽히 겹치기 전에 페널티 항이 0이 되지 않도록 앵커 박스와 타깃 박스를 포함하는 영역과 타깃 박스와 앵커 박스 각각의 둘레 차이를 이용하여 최종 회귀 손실 함수를 구한다.
최종 회귀 손실 함수의 페널티 항은 하기식으로 나타내고,
Figure 112021017687949-pat00007
여기서,
Figure 112021017687949-pat00008
는 앵커 박스와 타깃 박스를 포괄하는 최소 크기의 직사각형의 둘레,
Figure 112021017687949-pat00009
는 타깃 박스의 둘레,
Figure 112021017687949-pat00010
는 앵커 박스의 둘레를 나타내며, 최종 회귀 손실 함수의 패널티 항은 앵커 박스와 타깃 박스의 겹치는 정도가 증가할 수록 감소하게 되어 IoU와의 상관관계를 갖고, 앵커 박스와 타깃 박스를 포괄하는 최소 크기의 직사각형의 둘레를 최종 회귀 손실 함수의 패널티 항의 분모로 하여 스케일 불변성을 보장하며, 앵커 박스와 타깃 박스가 완전히 일치되어 겹치기 전에 페널티 항이 0이 되지 않는다.
앵커 박스와 타깃 박스가 완전히 일치되어 겹쳐져 손실 함수가 0이 될 때까지 최종 회귀 손실 함수의 페널티 항은 0이 되지 않도록 함으로써 바운딩 박스 회귀 학습을 최적화한다.
또 다른 일 측면에 있어서, 본 발명에서 제안하는 객체 탐지에서의 둘레기반 IoU 손실함수를 통한 효율적인 바운딩 박스 회귀 학습 장치는 객체 탐지를 위한 신경망 학습을 위해 클래스 분류와 바운딩 박스의 샘플인 앵커 박스의 회귀 손실 함수를 결합 학습하는 학습부 및 학습된 회귀 손실 함수가 앵커 박스와 타깃 박스의 겹침을 측정하기 위한 IoU(Intersection of Union) 손실과 상관관계를 갖도록 학습된 회귀 손실 함수에 페널티 항을 추가하고, 앵커 박스와 타깃 박스를 포함하는 영역과 타깃 박스와 앵커 박스 각각의 둘레 차이를 이용하여 최종 회귀 손실 함수를 구하는 회귀 손실 함수 계산부를 포함한다.
본 발명의 실시예들에 따른 둘레기반 IoU 손실함수를 통한 효율적인 바운딩 박스 회귀 학습 방법 및 장치는 객체 탐지에서의 손실함수가 IoU와의 상관관계를 갖고, 스케일 불변성을 가지며, 페널티 항을 최적화하는 데 손실함수가 0이 될 때까지 작용할 수 있다.
도 1은 종래기술에 따른 회귀 손실 함수 및 IoU 손실을 설명하기 위한 도면이다.
도 2는 본 발명의 일 실시예에 따른 BIoU 페널티 항과 종래기술을 비교하기 위한 도면이다.
도 3은 본 발명의 일 실시예에 따른 객체 탐지에서의 둘레기반 IoU 손실함수를 통한 효율적인 바운딩 박스 회귀 학습 방법을 설명하기 위한 흐름도이다.
도 4는 본 발명의 일 실시예에 따른 앵커 박스의 변화에 따른 페널티 항과 종래기술을 비교하기 위한 도면이다.
도 5는 본 발명의 일 실시예에 따른 객체 탐지에서의 둘레기반 IoU 손실함수를 통한 효율적인 바운딩 박스 회귀 학습 장치의 구성을 나타내는 도면이다.
도 6은 본 발명의 일 실시예에 따른 모의 실험 환경과 결과를 나타내는 도면이다.
이하, 본 발명의 실시 예를 첨부된 도면을 참조하여 상세하게 설명한다.
도 2는 본 발명의 일 실시예에 따른 BIoU 페널티 항과 종래기술을 비교하기 위한 도면이다.
도 2(a)는 종래기술에 따른 GIoU 페널티 항, 도 2(b)는 종래기술에 따른 DIoU 페널티 항, 도 2(c)는 본 발명의 일 실시예에 따른 BIoU 페널티 항을 나타내는 도면이다.
종래기술에 따른 GIoU, DIoU[5, 6]는 페널티 항을 추가하여 겹치지 않는 앵커 박스를 고려하였다. 하지만 페널티 항이 0이 될 때와 앵커 박스와 타깃 박스가 완전히 겹칠 때와 같지 않아 박스 회귀의 최적화에 한계가 있다. 구체적으로, 페널티 항이 회귀 손실 함수를 줄이기는 하지만 페널티 항이 0이 되고 나서는 오직 IoU 항으로만 최적화가 일어난다. 이처럼 페널티 항이 0이 되고 난 이후 최적화는 IoU 항만 이용하기에 성능 향상에 한계가 있다.
따라서, 본 발명에서는 박스들의 둘레(도 2(c)의 양방향 화살표들로 표시)를 이용한 새로운 손실 함수, BIoU 손실을 제안한다. 이 손실 함수의 페널티 항은 앵커 박스와 타깃 박스가 정확하게 겹칠 때까지, 즉 손실 함수가 0이 될 때까지 페널티 항이 0이 되지 않아 최적화를 돕는다.
위 회귀 손실 함수를 비교하기 위해 객체 탐지에 사용되는 VOC 데이터 셋을 이용하여 SSD, YOLO v3 모델에 대해 각각의 손실 함수들로 학습한다. 또한 시뮬레이션을 통해 앵커 박스들이 효율적으로 최적화되는지 확인한다. 이를 통해 BIoU를 이용하여 학습한 모델이 다른 손실 함수로 학습한 모델에 비해 더 높은 정확도를 달성함을 확인하였다.
여러 종래기술을 통해 객체 탐지의 손실 함수는 이미지 분류에는 생기지 않지만 객체 탐지에서만 생기는 문제를 해결했다. Focal loss[7]는 분류 손실 함수로 객체 탐지 데이터 셋의 불균형을 완화하여 성능을 개선했고 Gradient Harmonizing Mechanism[8]은 그래디언트의 플로우의 균형을 맞추는 분류 손실 함수로 객체 탐지의 성능을 개선했다.
회귀 문제를 해결하기 위해 IoU 계열 손실 함수가 제안되었다. 도 2(a)와 같이, GIoU의 경우 앵커 박스와 타깃 박스를 모두 포함하는 직사각형을 페널티 항에 사용하여 겹치지 않는 경우를 해결하였다. 도 2(b)와 같이, DIoU의 경우 앵커 박스와 타깃 변수의 중심점의 차이를 페널티 항에 넣어 겹치지 않는 경우를 해결하고 학습의 효율성을 증가시켰다.
2(a)에 도시된 C는 앵커 박스와 타깃 박스를 포괄하는 최소 크기의 직사각형이다. GIoU는 C의 넓이에서 앵커 박스와 타깃 박스 합집합의 넓이를 뺀 값을 페널티 항으로 쓴다. 2(b)에서 p는 앵커 박스와 타깃 박스의 중심 점들의 거리이고 c는 앵커 박스와 타깃 박스를 포함하는 직사각형 C의 대각선이다. DIoU는 중심 점들의 거리에서 c의 대각선을 나눈 식을 페널티 항으로 사용한다. CIoU는 DIoU에 종횡비(aspect ratio)를 계산하는 식을 페널티 항에 추가하여 성능을 더욱 개선하였다. Pixel-IoU[9]의 경우 회전이 가능한 박스를 맞추기 위해 픽셀 단위로 박스의 영역을 계산한다.
본 발명의 실시예에 따른 BIoU의 경우, 페널티 항은 도 2(c)와 같이 C의 둘레가 분모가 되고 C의 둘레에서 앵커 박스와 타깃 박스 둘레를 반으로 나누어 뺀 도 2(c)의 양방향 화살표로 나타낸 선이 분자가 된다.
손실 함수를 비교하기 위해 손실 함수들의 페널티 항을 수식으로 표현한다. GIoU와 DIoU의 페널티 항은 아래와 같다:
Figure 112021017687949-pat00011
(3)
도 3은 본 발명의 일 실시예에 따른 객체 탐지에서의 둘레기반 IoU 손실함수를 통한 효율적인 바운딩 박스 회귀 학습 방법을 설명하기 위한 흐름도이다.
제안하는 객체 탐지에서의 둘레기반 IoU 손실함수를 통한 효율적인 바운딩 박스 회귀 학습 방법은 객체 탐지를 위한 신경망 학습을 위해 학습부가 클래스 분류와 바운딩 박스의 샘플인 앵커 박스의 회귀 손실 함수를 결합 학습하는 단계(310), 학습된 회귀 손실 함수가 앵커 박스와 타깃 박스의 겹침을 측정하기 위한 IoU(Intersection of Union) 손실과 상관관계를 갖도록 회귀 손실 함수 계산부가 학습된 회귀 손실 함수에 페널티 항을 추가하는 단계(320) 및 회귀 손실 함수 계산부를 통해 앵커 박스와 타깃 박스를 포함하는 영역과 타깃 박스와 앵커 박스 각각의 둘레 차이를 이용하여 최종 회귀 손실 함수를 구하는 단계(330)를 포함한다.
단계(310)에서, 객체 탐지를 위한 신경망 학습을 위해 학습부가 클래스 분류와 바운딩 박스의 샘플인 앵커 박스의 회귀 손실 함수를 결합 학습한다.
단계(320)에서, 학습된 회귀 손실 함수가 앵커 박스와 타깃 박스의 겹침을 측정하기 위한 IoU 손실과 상관관계를 갖도록 회귀 손실 함수 계산부가 학습된 회귀 손실 함수에 페널티 항을 추가한다.
단계(330)에서, 회귀 손실 함수 계산부를 통해 앵커 박스와 타깃 박스를 포함하는 영역과 타깃 박스와 앵커 박스 각각의 둘레 차이를 이용하여 최종 회귀 손실 함수를 구한다. 이때, IoU와의 상관관계를 갖고, 스케일 불변성을 가지며, 앵커 박스와 타깃 박스가 완벽히 겹치기 전에 페널티 항이 0이 되지 않도록 앵커 박스와 타깃 박스를 포함하는 영역과 타깃 박스와 앵커 박스 각각의 둘레 차이를 이용하여 최종 회귀 손실 함수를 구한다.
도 4는 본 발명의 일 실시예에 따른 앵커 박스의 변화에 따른 페널티 항과 종래기술을 비교하기 위한 도면이다.
위 페널티 항들은 회귀 손실 함수를 줄이는 데 도움을 주지만 페널티 항이 0이 되고 나서는 오직 IoU 항으로만 최적화가 일어난다. 도 4(a)와 같이 GIoU는 앵커 박스와 타깃 박스를 포괄하는 최소 크기의 직사각형C가 앵커 박스나 타깃 박스가 되면 페널티 항이 0이 되고 이후 최적화는 오직 IoU 항만을 사용한다. 도 4(b)와 같이 DIoU의 경우 중심 점이 같게 되면 페널티 항이 0이 되어 이후 최적화는 IoU 항만 사용한다. 이런 결과를 통해 보다 나은 최적화를 위해서는 회귀 손실 함수는 다음의 조건을 만족해야 한다:
1) IoU와의 상관관계가 있어야 한다.
2) 스케일 불변성을 가져야 한다.
3) 페널티 항을 최적화하는 데 손실 함수가 0이 될 때까지 작용해야 한다.
GIoU와 DIoU는 위의 세 가지 조건 중에서 1)과 2)는 만족하지만 3)은 만족하지 않는다는 것을 알 수 있다.
본 발명에서 제안하는 둘레 기반 IoU 손실 함수(BIoU)는 위 조건들을 모두 만족하며 하기식과 같이 정의된다:
Figure 112021017687949-pat00012
(4)
이 식에서 p은 해당 박스의 둘레(boundary)를 나타낸다.
도 4(a)의 경우 RGIoU = 0, RDIoU = 0.625, RBIoU = 0.5이고, 도 4(b)의 경우 RGIoU = 0, RDIoU = 0, RBIoU = 0.5이고, 도 4(c)의 경우 RGIoU = 0, RDIoU = 0, RBIoU = 0.25이다.
도 4(c)에 나타난 바와 같이 RBIoU 값은 앵커 박스와 타깃 박스의 겹치는 정도가 커질수록 작아지게 되어 꼭지점을 기준으로 거리를 계산하는 smooth L1 함수보다 IoU와의 상관관계가 더 강하다. 또한, 페널티 항에 앵커 박스와 타깃 박스를 겹치는 박스의 둘레로 나누는 방식으로 정의되어 스케일 불변성을 보장한다. 마지막으로 도 4와 같이 앵커 박스와 타깃 박스가 정확하게 겹치지 않는 이상 해당 값이 0이 되지 않는다. 따라서 IoU를 통한 회귀 학습을 가속화할 수 있게 되어 기존 손실 함수들보다 더 효율적인 회귀 학습이 가능하다.
도 5는 본 발명의 일 실시예에 따른 객체 탐지에서의 둘레기반 IoU 손실함수를 통한 효율적인 바운딩 박스 회귀 학습 장치의 구성을 나타내는 도면이다.
제안하는 객체 탐지에서의 둘레기반 IoU 손실함수를 통한 효율적인 바운딩 박스 회귀 학습 장치(500)는 학습부(510) 및 회귀 손실 함수 계산부(520)를 포함한다.
학습부(510) 및 회귀 손실 함수 계산부(520)는 도 3의 단계들(110~130)을 수행하기 위해 구성될 수 있다.
학습부(510)는 객체 탐지를 위한 신경망 학습을 위해 클래스 분류와 바운딩 박스의 샘플인 앵커 박스의 회귀 손실 함수를 결합 학습한다.
회귀 손실 함수 계산부(520)는 학습된 회귀 손실 함수가 앵커 박스와 타깃 박스의 겹침을 측정하기 위한 IoU 손실과 상관관계를 갖도록 학습된 회귀 손실 함수에 페널티 항을 추가한다.
회귀 손실 함수 계산부(520)는 앵커 박스와 타깃 박스를 포함하는 영역과 타깃 박스와 앵커 박스 각각의 둘레 차이를 이용하여 최종 회귀 손실 함수를 구한다. 이때, IoU와의 상관관계를 갖고, 스케일 불변성을 가지며, 앵커 박스와 타깃 박스가 완벽히 겹치기 전에 페널티 항이 0이 되지 않도록 앵커 박스와 타깃 박스를 포함하는 영역과 타깃 박스와 앵커 박스 각각의 둘레 차이를 이용하여 최종 회귀 손실 함수를 구한다.
도 6은 본 발명의 일 실시예에 따른 모의 실험 환경과 결과를 나타내는 도면이다.
BIoU의 성능을 분석하기 위해 먼저 [6]에서 제안된 것과 동일한 환경에서 모의 실험을 진행한다. 도 6(a)와 같이 (10, 10)에서 넓이가 1인 정사각형을 중심으로 종횡비가 1:2, 1:3, 1:4, 2:1, 3:1, 4:1인 사각형을 추가한 7개의 사각형을 타깃 박스로 하였다. (10, 10)을 중심으로 유클리디안(Euclidean) 거리가 3 이하의 점들을 앵커 박스의 중심 점으로 간주한다. 이때 점들은 0.1 간격으로 규칙적으로 배치하여 총 2816개의 점을 사용한다. 앵커 박스도 타깃 박스처럼 7개의 종횡비를 가지고 사각형의 넓이는 0.5, 0.67, 0.75, 1, 1.33, 1.5, 2까지 7가지를 사용해 총 7×7×2816개의 앵커 박스를 해당 종횡비의 타깃 박스에 각 회귀 손실 함수로 예측했다. 하기식과 같이 앵커 박스의 갱신을 통해 타깃 박스를 예측한다:
Figure 112021017687949-pat00013
(5)
Figure 112021017687949-pat00014
는 회귀 손실 함수에 나온 손실의 그래디언트 값이고
Figure 112021017687949-pat00015
은 갱신을 빨리하기 위한 값이다. 이를 통해 앵커 박스가 타깃 박스를 예측하도록 하였다.
도 6(b)는 200번 반복 실험을 진행하여 나온 모든 앵커 박스와 앵커 박스의 IoU 총합을 그린 그래프다. 즉, 더 높은 값이 나올수록 성능이 좋은 지표라고 할 수 있다. 실험을 통해 IoU Loss만 사용한 경우 가장 낮은 값을 가지는 것을 확인하였고 이는 서로 전혀 겹치지 않는 박스들은 고려하지 못하는 점에서 기인한다는 것을 알 수 있다. 겹치지 않는 박스들도 고려하여 제안된 기존 회귀 손실 함수들(GIoU, DIoU 및 CIoU)은 IoU 자체만 사용하는 경우 보다는 더 나은 성능을 보였지만 BIoU가 가장 좋은 성능을 달성하는 것을 확인하였다.
손실 함수의 실제 성능 비교를 위해 객체 탐지 분야에서 자주 사용되는 VOC-07 +12 데이터 셋을 학습에 사용했다. 총 20개 종류의 16,551개 이미지를 사용해 학습한다. 테스트는 4,952장으로 구성된 VOC-07의 테스트 셋을 사용한다. 비교 실험을 하기 위해 SSD, YOLO v3 모델을 사용한다. SSD는 추론이 빠른 대표적인 원 스테이지(one stage) 객체 탐지 모델로 객체의 다양한 크기를 고려해 여러 사이즈의 특성 맵(feature map)을 이용해 이미지 속 객체를 검출한다. YOLO v3 또한 YOLO의 이전 버전과 다르게 여러 크기의 특성 맵을 고려하는 원 스테이지 객체 탐지 모델이다. 분류 손실 함수로는 크로스 엔트로피(cross entropy)를 사용하고 회귀 손실 함수는 각 다른 손실 함수를 사용해 비교한다.
[5, 6]과 같이 평가 지표로 IoU가 특정 값이 넘을 때 객체가 존재한다고 가정하고 객체의 클래스를 맞추는 AP를 사용한다. AP는 10개의 다른 IoU를 적용한 mAP의 평균으로 IoU = {0.5, 0.55, ..., 0.95}으로 계산한다. 구체적으로, IoU의 임계값이 0.5일 때 IoU가 0.5 이상이면 객체가 있다고 가정하여 클래스를 예측한다. AP 75는 IoU의 임계값이 0.75일 때의 AP를 의미한다.
YOLO v3의 백본으로 Darknet 53을 이용했으며 이터레이션은 50K를 이용해 학습했다. YOLO v3의 실험 결과는 표 1과 같고, BIoU Loss가 가장 좋은 성능을 보이는 것을 확인할 수 있다.
<표 1>
Figure 112021017687949-pat00016
CIoU Loss에 비해 상대적으로 1.23% 성능 향상을 보이며 이를 통해 회귀 손실 함수가 가져야 하는 조건을 모두 만족하는 BIoU가 실제 성능에서도 더 나은 성능을 보인다는 점을 입증하였다. SSD의 경우 YOLO v3와 같은 데이터 셋을 이용해 학습했으며 테스트 셋 또한 같다. 백본으로는 ResNet 50을 사용했으며 이외의 하이퍼 파라미터는 SSD 논문과 같게 실험했다. SSD의 실험 결과는 표 2와 같다.
<표 2>
Figure 112021017687949-pat00017
SSD의 실험 결과를 보면 YOLO v3와 같이 BIoU Loss가 AP 52.50%로 가장 좋은 성능을 달성하였다.
본 발명에서는 객체 탐지에 사용되는 새로운 회귀 손실 함수인 BIoU 손실을 제안하고 다른 회귀 손실 함수와의 비교 실험을 진행하였다. 모의 실험과 벤치마크 모델을 통한 실험을 통해 기존 회귀 손실 함수와 BIoU 손실을 비교했다. 이를 통해 기존 회귀 손실 함수의 페널티 항이 가진 한계를 보완하여 다른 회귀 손실 함수에 비해 AP, AP75가 더 좋은 성능을 달성함을 알 수 있다. 본 발명에서 제안하는 BIoU 손실은 2D 앵커 박스 회귀 최적화를 필요로 하는 애플리케이션에 적용할 수 있다.
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다.  또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다.  이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다.  예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다.  또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다.  소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다.  소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다.  상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다.  상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다.  컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다.  프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다.  예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.
참 고 문 헌
[1] Zhang, S., Wen, L., Bian, X., Lei, Z., & Li, S. Z. (2018). Single-shot refinement neural network for object detection. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 4203-4212).
[2] Ren, S., He, K., Girshick, R., & Sun, J. (2015). Faster r-cnn: Towards real-time object detection with region proposal networks. In Advances in neural information processing systems (pp. 91-99).
[3] Redmon, J., & Farhadi, A. (2018). Yolov3: An incremental improvement. arXiv preprint arXiv:1804.02767.
[4] Zhou, D., Fang, J., Song, X., Guan, C., Yin, J., Dai, Y., & Yang, R. (2019, September). Iou loss for 2d/3d object detection. In 2019 International Conference on 3D Vision (3DV) (pp. 85-94). IEEE.
[5] Rezatofighi, H., Tsoi, N., Gwak, J., Sadeghian, A., Reid, I., & Savarese, S. (2019). Generalized intersection over union: A metric and a loss for bounding box regression. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (pp. 658-666).
[6] Zheng, Z., Wang, P., Liu, W., Li, J., Ye, R., & Ren, D. (2020). Distance-IoU Loss: Faster and Better Learning for Bounding Box Regression. In AAAI (pp. 12993-13000).
[7] Lin, T. Y., Goyal, P., Girshick, R., He, K., & Dollar, P. (2017). Focal loss for dense object detection. In Proceedings of the IEEE international conference on computer vision (pp. 2980-2988).
[8] Li, B., Liu, Y., & Wang, X. (2019, July). Gradient harmonized single-stage detector. In Proceedings of the AAAI Conference on Artificial Intelligence (Vol. 33, pp. 8577-8584).
[9] Chen, Z., Chen, K., Lin, W., See, J., Yu, H., Ke, Y., & Yang, C. (2020). BIoU Loss: Towards Accurate Oriented Object Detection in Complex Environments. arXiv preprint arXiv:2007.09584.

Claims (7)

  1. 객체 탐지를 위한 신경망 학습을 위해 학습부가 클래스 분류와 바운딩 박스의 샘플인 앵커 박스의 회귀 손실 함수를 결합 학습하는 단계;
    학습된 회귀 손실 함수가 앵커 박스와 타깃 박스의 겹침을 측정하기 위한 IoU(Intersection of Union) 손실과 상관관계를 갖도록 회귀 손실 함수 계산부가 학습된 회귀 손실 함수에 페널티 항을 추가하는 단계; 및
    회귀 손실 함수 계산부를 통해 앵커 박스와 타깃 박스를 포함하는 영역과 타깃 박스와 앵커 박스 각각의 둘레 차이를 이용하여 최종 회귀 손실 함수를 구하는 단계
    를 포함하고,
    최종 회귀 손실 함수의 페널티 항은 하기식으로 나타내고,
    Figure 112022020379818-pat00032

    여기서,
    Figure 112022020379818-pat00033
    는 앵커 박스와 타깃 박스를 포괄하는 최소 크기의 직사각형의 둘레,
    Figure 112022020379818-pat00034
    는 타깃 박스의 둘레,
    Figure 112022020379818-pat00035
    는 앵커 박스의 둘레를 나타내며,
    최종 회귀 손실 함수의 패널티 항은 앵커 박스와 타깃 박스의 겹치는 정도가 증가할 수록 감소하게 되어 IoU와의 상관관계를 갖고, 앵커 박스와 타깃 박스를 포괄하는 최소 크기의 직사각형의 둘레를 최종 회귀 손실 함수의 패널티 항의 분모로 하여 스케일 불변성을 보장하며, 앵커 박스와 타깃 박스가 완전히 일치되어 겹치기 전에 페널티 항이 0이 되지 않는
    객체 탐지를 위한 바운딩 박스 회귀 학습 방법.
  2. 제1항에 있어서,
    회귀 손실 함수 계산부를 통해 앵커 박스와 타깃 박스를 포함하는 영역과 타깃 박스와 앵커 박스 각각의 둘레 차이를 이용하여 최종 회귀 손실 함수를 구하는 단계는,
    IoU와의 상관관계를 갖고, 스케일 불변성을 가지며, 앵커 박스와 타깃 박스가 완벽히 겹치기 전에 페널티 항이 0이 되지 않도록 앵커 박스와 타깃 박스를 포함하는 영역과 타깃 박스와 앵커 박스 각각의 둘레 차이를 이용하여 최종 회귀 손실 함수를 구하는
    객체 탐지를 위한 바운딩 박스 회귀 학습 방법.
  3. 삭제
  4. 제1항에 있어서,
    앵커 박스와 타깃 박스가 완전히 일치되어 겹쳐져 손실 함수가 0이 될 때까지 최종 회귀 손실 함수의 페널티 항은 0이 되지 않도록 함으로써 바운딩 박스 회귀 학습을 최적화하는
    객체 탐지를 위한 바운딩 박스 회귀 학습 방법.
  5. 객체 탐지를 위한 신경망 학습을 위해 클래스 분류와 바운딩 박스의 샘플인 앵커 박스의 회귀 손실 함수를 결합 학습하는 학습부; 및
    학습된 회귀 손실 함수가 앵커 박스와 타깃 박스의 겹침을 측정하기 위한 IoU(Intersection of Union) 손실과 상관관계를 갖도록 학습된 회귀 손실 함수에 페널티 항을 추가하고, 앵커 박스와 타깃 박스를 포함하는 영역과 타깃 박스와 앵커 박스 각각의 둘레 차이를 이용하여 최종 회귀 손실 함수를 구하는 회귀 손실 함수 계산부
    를 포함하고,
    최종 회귀 손실 함수의 페널티 항은 하기식으로 나타내고,
    Figure 112022020379818-pat00036

    여기서,
    Figure 112022020379818-pat00037
    는 앵커 박스와 타깃 박스를 포괄하는 최소 크기의 직사각형의 둘레,
    Figure 112022020379818-pat00038
    는 타깃 박스의 둘레,
    Figure 112022020379818-pat00039
    는 앵커 박스의 둘레를 나타내며,
    최종 회귀 손실 함수의 패널티 항은 앵커 박스와 타깃 박스의 겹치는 정도가 증가할 수록 감소하게 되어 IoU와의 상관관계를 갖고, 앵커 박스와 타깃 박스를 포괄하는 최소 크기의 직사각형의 둘레를 최종 회귀 손실 함수의 패널티 항의 분모로 하여 스케일 불변성을 보장하며, 앵커 박스와 타깃 박스가 완전히 일치되어 겹치기 전에 페널티 항이 0이 되지 않는
    객체 탐지를 위한 바운딩 박스 회귀 학습 장치.
  6. 제5항에 있어서,
    회귀 손실 함수 계산부는,
    IoU와의 상관관계를 갖고, 스케일 불변성을 가지며, 앵커 박스와 타깃 박스가 완벽히 겹치기 전에 페널티 항이 0이 되지 않도록 앵커 박스와 타깃 박스를 포함하는 영역과 타깃 박스와 앵커 박스 각각의 둘레 차이를 이용하여 최종 회귀 손실 함수를 구하는
    객체 탐지를 위한 바운딩 박스 회귀 학습 장치.
  7. 삭제
KR1020210019696A 2021-02-15 2021-02-15 객체 탐지에서의 둘레기반 IoU 손실함수를 통한 효율적인 바운딩 박스 회귀 학습 방법 및 장치 KR102378887B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210019696A KR102378887B1 (ko) 2021-02-15 2021-02-15 객체 탐지에서의 둘레기반 IoU 손실함수를 통한 효율적인 바운딩 박스 회귀 학습 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210019696A KR102378887B1 (ko) 2021-02-15 2021-02-15 객체 탐지에서의 둘레기반 IoU 손실함수를 통한 효율적인 바운딩 박스 회귀 학습 방법 및 장치

Publications (1)

Publication Number Publication Date
KR102378887B1 true KR102378887B1 (ko) 2022-03-25

Family

ID=80935186

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210019696A KR102378887B1 (ko) 2021-02-15 2021-02-15 객체 탐지에서의 둘레기반 IoU 손실함수를 통한 효율적인 바운딩 박스 회귀 학습 방법 및 장치

Country Status (1)

Country Link
KR (1) KR102378887B1 (ko)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114998932A (zh) * 2022-06-10 2022-09-02 哈工大机器人集团股份有限公司 一种基于YOLOv4的行人检测方法及系统
KR102511315B1 (ko) * 2022-09-07 2023-03-17 주식회사 스마트인사이드에이아이 환경 변수 데이터 학습에 기초한 영상 기반 객체 인식 방법 및 시스템
CN116091453A (zh) * 2023-01-07 2023-05-09 成都成电金盘健康数据技术有限公司 一种乳腺癌的病灶检测方法
CN116229191A (zh) * 2023-03-13 2023-06-06 东莞理工学院 一种基于归一化角点距离和目标前景信息的目标检测方法
CN117011768A (zh) * 2023-08-07 2023-11-07 哈尔滨工程大学 一种基于鲁棒性数据关联的多船舶目标检测与跟踪方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190080904A (ko) * 2016-11-01 2019-07-08 스냅 인코포레이티드 이미지 내의 객체 검출을 위한 신경망
KR20190085464A (ko) * 2018-01-10 2019-07-18 삼성전자주식회사 이미지 처리 방법 및 이를 수행하는 장치들
KR20200063304A (ko) * 2018-11-19 2020-06-05 한국과학기술원 객체 검출 훈련 방법
KR20200101514A (ko) * 2019-01-30 2020-08-28 한국전력공사 딥 러닝을 이용한 객체 검출 시스템
KR20210002104A (ko) * 2019-06-26 2021-01-06 베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드 목표 검출 및 목표 검출 네트워크의 훈련

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190080904A (ko) * 2016-11-01 2019-07-08 스냅 인코포레이티드 이미지 내의 객체 검출을 위한 신경망
KR20210024242A (ko) * 2016-11-01 2021-03-04 스냅 인코포레이티드 이미지 내의 객체 검출을 위한 신경망
KR20190085464A (ko) * 2018-01-10 2019-07-18 삼성전자주식회사 이미지 처리 방법 및 이를 수행하는 장치들
KR20200063304A (ko) * 2018-11-19 2020-06-05 한국과학기술원 객체 검출 훈련 방법
KR20200101514A (ko) * 2019-01-30 2020-08-28 한국전력공사 딥 러닝을 이용한 객체 검출 시스템
KR20210002104A (ko) * 2019-06-26 2021-01-06 베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드 목표 검출 및 목표 검출 네트워크의 훈련

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114998932A (zh) * 2022-06-10 2022-09-02 哈工大机器人集团股份有限公司 一种基于YOLOv4的行人检测方法及系统
KR102511315B1 (ko) * 2022-09-07 2023-03-17 주식회사 스마트인사이드에이아이 환경 변수 데이터 학습에 기초한 영상 기반 객체 인식 방법 및 시스템
US11961301B2 (en) 2022-09-07 2024-04-16 SMARTINSIDE AI Inc. Image-based object recognition method and system based on learning of environment variable data
CN116091453A (zh) * 2023-01-07 2023-05-09 成都成电金盘健康数据技术有限公司 一种乳腺癌的病灶检测方法
CN116091453B (zh) * 2023-01-07 2024-03-26 成都成电金盘健康数据技术有限公司 一种乳腺癌的病灶检测方法
CN116229191A (zh) * 2023-03-13 2023-06-06 东莞理工学院 一种基于归一化角点距离和目标前景信息的目标检测方法
CN116229191B (zh) * 2023-03-13 2023-08-29 东莞理工学院 一种基于归一化角点距离和目标前景信息的目标检测方法
CN117011768A (zh) * 2023-08-07 2023-11-07 哈尔滨工程大学 一种基于鲁棒性数据关联的多船舶目标检测与跟踪方法

Similar Documents

Publication Publication Date Title
KR102378887B1 (ko) 객체 탐지에서의 둘레기반 IoU 손실함수를 통한 효율적인 바운딩 박스 회귀 학습 방법 및 장치
He et al. Enhanced boundary learning for glass-like object segmentation
US20210183097A1 (en) Spare Part Identification Using a Locally Learned 3D Landmark Database
US11625855B2 (en) Method and system for updating map for pose estimation based on images
KR102649119B1 (ko) 좌표 정보를 이용한 객체 검출 네트워크 기법
KR102305230B1 (ko) 객체 경계정보의 정확도 개선방법 및 장치
CN112184508A (zh) 一种用于图像处理的学生模型的训练方法及装置
KR101828215B1 (ko) Long Short Term Memory 기반 순환형 상태 전이 모델의 학습 방법 및 장치
Liu et al. Weakly supervised 3d scene segmentation with region-level boundary awareness and instance discrimination
CN110009662B (zh) 人脸跟踪的方法、装置、电子设备及计算机可读存储介质
KR102305229B1 (ko) 객체 경계정보의 추출에 사용되는 피쳐맵 정보를 생성하는 방법 및 장치
Dong et al. Learning regional purity for instance segmentation on 3d point clouds
Dhiman et al. A novel video shot boundary detection framework employing DCT and pattern matching
Lichtenstein et al. Deep eikonal solvers
Wu et al. Sc-wls: Towards interpretable feed-forward camera re-localization
KR20180054406A (ko) 영상 처리 장치 및 방법
KR20230108075A (ko) 객체 인식 방법 및 장치
KR20190105147A (ko) 반딧불 알고리즘을 이용한 데이터 클러스터링 방법 및 시스템
CN110728359B (zh) 搜索模型结构的方法、装置、设备和存储介质
KR20160128869A (ko) 사전 정보를 이용한 영상 물체 탐색 방법 및 이를 수행하는 장치
CN116758360A (zh) 土地空间用途管理方法及其系统
CN116958809A (zh) 一种特征库迁移的遥感小样本目标检测方法
Paus et al. Probabilistic representation of objects and their support relations
Chen et al. Research on warehouse object detection algorithm based on fused densenet and ssd
Ge et al. Fusion-Mask-RCNN: Visual robotic grasping in cluttered scenes

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant