KR102462966B1

KR102462966B1 - Yolo 알고리즘을 사용하는 장치의 성능 향상 방법

Info

Publication number: KR102462966B1
Application number: KR1020200162614A
Authority: KR
Inventors: 최호진; 홍광 응엔; 남재권; 이주태; 류찬혁; 송재완; 이정태; 이범현
Original assignee: 오픈스택 주식회사
Priority date: 2020-11-27
Filing date: 2020-11-27
Publication date: 2022-11-04
Also published as: KR20220074290A

Abstract

본 명세서는 YOLO 알고리즘을 사용하는 장치의 객체 탐지 성능을 향상시킬 수 있는 방법을 개시한다. 본 명세서에 따른 최적 YOLO 앵커 선택 방법은, 미리 설정된 개수의 앵커를 가진 복수의 앵커 세트를 저장한 메모리 및 프로세서를 이용하여 최적 YOLO 앵커를 선택하는 방법으로서, 상기 프로세서가 (a) 상기 복수의 앵커 세트 중 미리 설정된 기준 앵커 세트를 이용하여 입력 이미지에서 객체를 탐지하고, 탐지된 객체의 박스 크기에 대한 데이터를 상기 메모리에 저장하는 단계; (b) 상기 메모리에 저장된 복수의 앵커 세트 중 각 앵커 세트에 포함된 앵커의 크기와 상기 메모리에 저장된 객체의 박스 크기 사이에서 크기 차이가 가장 작은 앵커 세트를 판별하는 단계; 및 (c) 상기 (b) 단계에서 크기 차이가 가장 작은 것으로 판별된 앵커 세트를 이용하여 입력 이미지에서 객체를 탐지하는 단계;를 포함할 수 있다.

Description

YOLO 알고리즘을 사용하는 장치의 성능 향상 방법{PERFORMANCE IMPROVING METHOD FOR DEVICE USING YOLO ALGORITHM}

본 발명은 YOLO 알고리즘에 관한 것이며, 보다 상세하게는 YOLO 알고리즘의 앵커에 관한 것이다.

이 부분에 기술된 내용은 단순히 본 명세서에 기재된 실시예에 대한 배경 정보를 제공할 뿐 반드시 종래 기술을 구성하는 것은 아니다.

최근 인공지능의 기반 기술 중 하나인 딥러닝은 눈부신 혁신을 거듭하고 있다. 텍스트 번역이나 이미지 분류 애플리케이션에 적합한 새로운 수준의 신경망이 개발되면서 사물인터넷(IoT)과 자율주행 관련 기술에도 활용되고 있다. 딥러닝 기술의 발전과 함께 객체 탐지 기법도 많은 발전이 이루어졌다.

객체 탐지(Object Detection)란, 이미지에서 관심 객체를 배경과 구분해 식별하는 자동화 기법이다. 객체 탐지는 이미지 내에서 객체 탐지를 위해 경계박스(Bounding Box)를 설정하고, 경계박스 내 객체의 카테고리(예: 사람, 동물, 자동차 등)을 분류한다. 경계박스를 설정하기 위해서는 여러 개의 사각형 상자 위치와 크기를 가정한다. 이러한 사각형 상자들을 '윈도우(Window)'라고 하며, 윈도우는 이미지 상의 가능한 모든 위치와 크기를 포함해야 한다. 그러나 각각의 이미지에는 서로 다른 개수의 픽셀이 있어 객체를 위치를 파악하기 위한 윈도우의 총 개수도 증가하며, 이로 인해 연산량이 증가하는 비효율의 문제가 발생한다.

이러한 연산량 증가의 비효율 문제를 해결하기 위한 2가지 카테고리의 객체 탐지 알고리즘이 있다. 첫 번째는 영역 제안(Region Proposal)이며, 두 번째는 미리 정해진 위치를 중심으로 정해진 크기의 객체만 찾는 방식이다. 두 번째 알고리즘은 보통 원본 이미지를 고정된 사이즈 그리드 영역으로 나누고, 각 영역에 대해 형태와 크기가 미리 결정된 객체 개수를 예측한다. 이러한 방식의 알고리즘을 단일 단계 방식(Single-Stage Methods)이라고 불리며 대표적인 방식 중 하나가 YOLO(You Only Look Once)알고리즘이다. YOLO 알고리즘은 영역 제안(Region Proposal)인 이 단계 방식(Two-Stage Methods) 보다는 정확도가 떨어지지만 빠른 처리가 가능하기 때문에, 일반적으로 실시간 탐지를 요구하는 애플리케이션에 활용된다.

YOLO 알고리즘은 원본 이미지를 동일한 크기의 그리드로 나누고, 각 그리드에 대해 그리드 중앙을 중심으로 미리 설정된 형태(predefined shape)의 경계박스를 이용하여 이미지에 객체가 포함되어 있는지, 또는 배경만 단독으로 있는지에 여부를 판단한다. 이때, 미리 설정된 형태의 경계박스를 '앵커(Anchor)'라고 한다. YOLO는 학습용 이미지에 포함된 다양한 객체의 크기를 통계적으로 계산하여, 통계적으로 산출된 객체의 크기와 가장 비슷한 크기를 가진 9개의 앵커를 미리 준비한다. 학습용 데이터를 통해 9개의 앵커를 계산하는 방법은 예를 들어 K-means 클러스터링 기법이 사용될 수 있다. 또한, 미리 준비된 앵커를 그리드 위치에 따라 그대로 사용되지 않는다. 이미지 내 객체의 크기에 맞추어 앵커의 폭과 높이를 크기를 조절하기도 하며, 이미지 내 객체의 위치에 맞추어 앵커의 중심을 상하좌우로 이동시키기도 한다.

보다 구체적으로, 학습을 위한 해상도를 결정하고 학습용 이미지 데이터를 수집한다. YOLO에서는 입력 이미지의 크기가 32배수여야 하므로 352x352, ?? ,448x448, 480x480?? 등등이 가능하다. 예를 들어 해상도를 416x416인 경우, 학습용 이미지 데이터를 모두 해상도 416x416 크기로 변환시키고, 변환된 이미지로 YOLO 네트워크를 학습시킨다. 이때, 학습용 이미지 데이터의 가로 세로가 1:1이 아니어도 검은 바(bar) 영역을 포함해 비율을 맞춘다. 학습용 이미지에 의해 결정되는 앵커는 학습 해상도에 비례하여 절대 크기가 커지게 된다. 학습 해상도를 정해서 학습한 결과물은 수백 메가바이트 정도의 데이터 값(이를 '웨이트(weight)'라고 함)으로 메모리에 저장되며, 이 데이터 값을 읽어 들여 YOLO가 동작한다.

도 1은 학습 해상도에 따른 앵커의 크기 비교를 위한 참고도이다.

도 1을 참조하며, YOLO 알고리즘이 객체를 탐지(detection)하는 과정을 설명하겠다. 도 1에 도시된 예시에는, 1920x1080 해상도의 이미지를 YOLO에 입력한 상황이다. 1920x1080 해상도를 가진 이미지를 그대로 처리할 경우, 연산량이 상당히 많다. 그래서 1920x1080 이미지를 가로 세로 픽셀이 32배수인 해상도 중 적당한 해상도로 줄여 YOLO에 입력한다. 도 1에 도시된 예시에는, 입력 이미지의 해상도가 736x416로 줄어든 경우이다. 그리고 학습 이미지 데이터로서 416x416 및 384x384 해상도에서 각각 학습한 YOLO는 도 1의 아래와 도시된 바와 같이, 앵커(점선)로 객체를 검출한다. 도 1에서 확인할 수 있듯이, 동일한 학습용 이미지 데이터로 416x416 해상도에서 학습한 경우나 384x384 해상도에서 학습한 경우 모두 앵커의 상대적인 모양은 동일하지만, 절대 크기에서는 차이가 난다.

앞서 언급하였듯이, YOLO 알고리즘은 이 단계 방식(Two-Stage Methods) 보다는 정확도가 떨어지지만 빠른 처리가 장점이다. 그러나 미리 준비된 앵커의 크기가 입력 이미지 내 객체의 크기와 차이가 많이 나는 경우, YOLO 알고리즘의 정확도가 하락하는 문제가 있다. 도 1에 도시된 예시에서, 416x416 해상도를 가진 이미지 데이터로 학습된 YOLO 알고리즘은 앵커 중 가장 작은 앵커의 크기보다 훨씬 작은 객체의 경우 객체를 탐지하는 정확도가 상당히 떨어지게 된다. 마찬가지로, 384x384 해상도를 가진 이미지 데이터로 학습된 YOLO 알고리즘은 앵커 중 가장 큰 앵커의 크기보다 훨씬 큰 객체의 경우 객체를 탐지하는 정확도도 마찬가지로 상당히 떨어지게 된다. 다시 말해서, 입력 이미지에 포함된 객체의 비율은 동일하여도 학습 해상도에 따라 앵커의 크기가 다르기 때문에 객체 탐지의 정확도가 떨어지는 문제가 발생할 수 있다.

이러한 문제는 YOLO 알고리즘이 탑재된 제품이 사용될 환경을 미리 알 수 없는 경우, 제품의 신뢰도와 직결된 중요한 문제이다. 예를 들어, 카메라에 촬영된 사람을 인식하여 실시간으로 이동인구수, 성별, 연령대를 인식하는 장비를 가정해 보겠다. 카메라가 설치된 장소, 렌즈의 화각, 카메라로부터 사람까지의 거리(이미지 내 사람의 크기) 등의 다양한 변수가 존재할 수 있다. 제품을 제조하는 제조자의 입장에서 구매 고객의 환경에 따라 매번 웨이트(weight)를 설정하는 것은 사실상 불가능하기 때문에, 이를 해결할 수 방법이 필요하다.

공개특허공보 제10-2020-0119369호, 2020.10.20

본 명세서는 YOLO 알고리즘을 사용하는 장치의 객체 탐지 성능을 향상시킬 수 있는 방법을 제공하는 것을 목적으로 한다.

본 명세서는 상기 언급된 과제로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

상술한 과제를 해결하기 위한 본 명세서에 따른 최적 YOLO 앵커 선택 방법은, 미리 설정된 개수의 앵커를 가진 복수의 앵커 세트를 저장한 메모리 및 프로세서를 이용하여 최적 YOLO 앵커를 선택하는 방법으로서, 상기 프로세서가 (a) 상기 복수의 앵커 세트 중 미리 설정된 기준 앵커 세트를 이용하여 입력 이미지에서 객체를 탐지하고, 탐지된 객체의 박스 크기에 대한 데이터를 상기 메모리에 저장하는 단계; (b) 상기 메모리에 저장된 복수의 앵커 세트 중 각 앵커 세트에 포함된 앵커의 크기와 상기 메모리에 저장된 객체의 박스 크기 사이에서 크기 차이가 가장 작은 앵커 세트를 판별하는 단계; 및 (c) 상기 (b) 단계에서 크기 차이가 가장 작은 것으로 판별된 앵커 세트를 이용하여 입력 이미지에서 객체를 탐지하는 단계;를 포함할 수 있다.

본 명세서의 일 실시예에 따르면, 상기 (b) 단계는 상기 메모리에 미리 설정된 개수의 박스 크기 데이터가 저장될 때 실행될 수 있다.

본 명세서에 따른 최적 YOLO 앵커 선택 방법은, (d) 상기 메모리에 저장된 객체의 박스 크기에 대한 데이터를 초기화하고, 상기 (c) 단계에서 탐지된 객체의 박스 크기에 대한 데이터를 상기 메모리에 다시 저장하는 단계;를 더 포함하되, 상기 메모리에 미리 설정된 개수의 박스 크기 데이터가 저장될 때마다 상기 (b) 내지 (d) 단계를 반복 실행할 수 있다.

본 명세서에 따른 최적 YOLO 앵커 선택 방법은, 상기 복수의 앵커 세트 중 어느 하나의 앵커 세트에 포함된 앵커들과 다른 앵커 세트에 포함된 앵커들은 가로 대 세로 비율이 각각 상호 대응하는 앵커들로 구성되며, 상기 상호 대응하는 앵커들은 서로 다른 크기를 가질 수 있다.

본 명세서의 일 실시예에 따르면, 상기 상호 대응하는 앵커들을 가진 각 앵커 세트는 동일한 원본 이미지를 서로 다른 해상도로 변환된 이미지 데이터를 이용하여 학습된 것일 수 있다.

본 명세서의 다른 실시예에 따르면, 상기 상호 대응하는 앵커들을 가진 각 앵커 세트는 동일한 해상도를 가지지만 객체 크기의 분포가 서로 다른 이미지 데이터로 학습된 것일 수 있다.

본 명세서의 또 다른 실시예에 따르면, 상기 상호 대응하는 앵커들은 가진 각 앵커 세트는 원본 이미지의 주변을 크롭 또는 패딩하여 동일 해상도로 변환한 이미지 데이터로 학습된 것일 수 있다.

본 명세서의 또 다른 실시예에 따르면, 상기 상호 대응하는 앵커들은 가진 각 앵커 세트는 원본 이미지를 데이터 증강 기법을 통해 확장된 이미지 데이터로 학습된 것일 수 있다.

본 명세서의 일 실시예에 따르면, 상기 (b) 단계는 아래 수식을 통해 산출된 L값이 가장 작은 앵커 세트를 크기 차이가 가장 작은 앵커 세트로 판별하는 단계일 수 있다.

[수식]

- (X_i, Y_i) : 메모리에 저장된 객체의 박스 크기 값

- i : 메모리에 저장된 박스의 식별 번호(저장된 박스의 개수: m)

- (X_j,k , Y_j,k) : 각 앵커 세트에 포함된 앵커의 크기 값

- j : 앵커 세트의 식별 번호

- k : 각 앵커 세트에 포함된 앵커의 식별 번호

본 명세서의 다른 실시예에 따르면, 상기 (b) 단계는 아래 수식을 통해 산출된 L값이 가장 작은 앵커 세트를 크기 차이가 가장 작은 앵커 세트로 판별하는 단계일 수 있다.

[수식]

- (X_i, Y_i) : 메모리에 저장된 객체의 박스 크기 값

- (X_j,k , Y_j,k) : 각 앵커 세트에 포함된 앵커의 크기 값

- j : 앵커 세트의 식별 번호

- k : 각 앵커 세트에 포함된 앵커의 식별 번호

본 명세서의 또 다른 실시예에 따르면, 상기 (b) 단계는 아래 수식을 통해 산출된 L값이 가장 작은 앵커 세트를 크기 차이가 가장 작은 앵커 세트로 판별하는 단계일 수 있다.

[수식]

- (X_i, Y_i) : 메모리에 저장된 객체의 박스 크기 값

- (X_j,k , Y_j,k) : 각 앵커 세트에 포함된 앵커의 크기 값

- j : 앵커 세트의 식별 번호

- k : 각 앵커 세트에 포함된 앵커의 식별 번호

본 명세서에 따른 최적 YOLO 앵커 선택 방법은, 컴퓨터에서 방법의 각 단계들을 수행하도록 작성되어 컴퓨터로 독출 가능한 기록 매체에 기록된 컴퓨터프로그램의 형태로 구현될 수 있다.

상술한 과제를 해결하기 위한 본 명세서에 따른 객체 탐지 장치는, 입력 이미지를 출력하는 카메라; 미리 설정된 개수의 앵커를 가진 복수의 앵커 세트를 저장한 메모리; 및 복수의 앵커 세트 중 상기 카메라부에 촬영된 입력 이미지에서 객체를 탐지하기 위한 어느 하나의 앵커 세트를 선택하는 프로세서;를 포함하는 YOLO 알고리즘을 이용한 객체 탐지 장치로서, 상기 프로세서는, 상기 복수의 앵커 세트 중 미리 설정된 기준 앵커 세트를 이용하여 입력 이미지에서 객체를 탐지하고, 탐지된 객체의 박스 크기에 대한 데이터를 상기 메모리에 저장하고, 상기 메모리에 저장된 복수의 앵커 세트 중 각 앵커 세트에 포함된 앵커의 크기와 상기 메모리에 저장된 객체의 박스 크기 사이에서 크기 차이가 가장 작은 앵커 세트를 판별하고, 크기 차이가 가장 작은 것으로 판별된 앵커 세트를 이용하여 입력 이미지에서 객체를 탐지할 수 있다.

본 발명의 기타 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.

본 명세서의 일 측면에 따르면, YOLO 알고리즘을 사용하는 장치가 설치된 환경에 맞도록 최적의 앵커를 선택할 수 있으며, 객체 탐지 성능이 향상되어 보다 정확한 객체 추적 및 분석이 가능하다.

본 명세서의 다른 측면에 따르면, YOLO 알고리즘을 사용하는 장치를 제조하는 입장에서 다양한 구매자의 사용 환경에 적합한 장치를 제공할 수 있다.

본 발명의 효과들은 이상에서 언급된 효과로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

도 1은 학습 해상도에 따른 앵커의 크기 비교를 위한 참고도이다.
도 2는 본 명세서에 따른 YOLO 알고리즘을 이용한 객체 탐지 장치의 구성을 개략적으로 도시한 블럭도이다.
도 3은 하나의 앵커 세트에 대한 예시도이다.
도 4는 본 명세서에 따른 최적 YOLO 앵커 선택 방법의 개략적인 흐름도이다.
도 5는 YOLO 알고리즘의 앵커로부터 박스의 크기를 찾아내는 방법의 참고도이다.
도 6은 실제 환경에서 앵커의 크기에 따른 객체 탐지 능력의 비교 예시이다.

본 명세서에 개시된 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 명세서가 이하에서 개시되는 실시예들에 제한되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 명세서의 개시가 완전하도록 하고, 본 명세서가 속하는 기술 분야의 통상의 기술자(이하 '당업자')에게 본 명세서의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 명세서의 권리 범위는 청구항의 범주에 의해 정의될 뿐이다.

다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 명세서가 속하는 기술분야의 통상의 기술자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다. 이하, 첨부된 도면을 참조하여 본 발명의 실시예를 상세하게 설명한다.

본 명세서는 YOLO 알고리즘에 관한 것이며, 앞서 '발명의 배경이 되는 기술'에서 YOLO 알고리즘에 대하여 언급한 내용을 모두 원용한다.

도 2는 본 명세서에 따른 YOLO 알고리즘을 이용한 객체 탐지 장치의 구성을 개략적으로 도시한 블럭도이다.

도 2를 참조하면, 본 명세서에 따른 YOLO 알고리즘을 이용한 객체 탐지 장치(100)는 카메라(110), 메모리(120) 및 프로세서(130)를 포함할 수 있다.

상기 카메라(110)는 이미지 센서에 의해 얻어 지는 정지영상 또는 동영상 등 화상 프레임을 처리하여, 입력 이미지를 출력할 수 있다. 상기 출력된 입력 이미지는 상기 메모리(120)에 저장될 수 있다. 상기 카메라(110)의 물리적 특성에 의해 입력 이미지의 해상도가 다양할 수 있다. 또한, 앞서 언급하였듯이, 본 명세서에 따른 객체 탐지 장치(100)가 설치된 장치 특히, 카메라(110)가 촬영하는 공간의 특성에 의해 입력 이미지 내 객체의 크기가 다양할 수 있다.

상기 메모리(120)는 미리 설정된 개수의 앵커를 가진 복수의 앵커 세트를 저장할 수 있다. 도 3은 하나의 앵커 세트에 대한 예시도이다. 일반적으로 YOLO 알고리즘은 9개의 앵커(anchor)를 사용할 수 있다. 도 3에 도시된 예시에 따르면, 크기가 서로 다른 9개의 앵커가 하나의 앵커 세트를 구성할 수 있다. 상기 메모리(120)에는 적어도 2이상의 앵커 세트가 저장되어 있다.

상기 복수의 앵커 세트에 포함된 각각의 앵커 세트는 서로 동일하지 않은 구성을 가지고 있다. 상기 복수의 앵커 세트는 n개의 앵커 세트가 포함될 수 있다. n개의 앵커 세트 중 임의의 제1 앵커 세트와 임의의 제2 앵커 세트를 선택하였을 때, 제1 앵커 세트에 포함된 9개의 앵커 전부와 제2 앵커 세트에 포함된 9개의 앵커 전부의 크기가 서로 다르거나, 제1 앵커 세트와 제2 세트에 각각 포함된 8개의 앵커는 크기가 서로 다르지만 1개의 앵커는 크기가 동일하거나, 제1 앵커 세트와 제2 세트에 각각 포함된 7개의 앵커는 크기가 서로 다르지만 2개의 앵커는 크기가 동일하거나, 제1 앵커 세트와 제2 세트에 각각 포함된 6개의 앵커는 크기가 서로 다르지만 3개의 앵커는 크기가 동일하거나, 제1 앵커 세트와 제2 세트에 각각 포함된 5개의 앵커는 크기가 서로 다르지만 4개의 앵커는 크기가 동일하거나, 제1 앵커 세트와 제2 세트에 각각 포함된 4개의 앵커는 크기가 서로 다르지만 5개의 앵커는 크기가 동일하거나, 제1 앵커 세트와 제2 세트에 각각 포함된 3개의 앵커는 크기가 서로 다르지만 6개의 앵커는 크기가 동일하거나, 제1 앵커 세트와 제2 세트에 각각 포함된 2개의 앵커는 크기가 서로 다르지만 7개의 앵커는 크기가 동일하거나, 제1 앵커 세트와 제2 세트에 각각 포함된 1개의 앵커는 크기가 서로 다르지만 7개의 앵커는 크기가 동일할 수 있다. 또 다른 예로, 상기 복수의 앵커 세트 중 어느 하나의 앵커 세트에 포함된 앵커들과 다른 앵커 세트에 포함된 앵커들은 가로 대 세로 비율이 각각 상호 대응하는 앵커들로 구성되며, 상기 상호 대응하는 앵커들은 서로 다른 크기를 가질 수 있다.

상기와 같이 다양한 크기 및 비율을 가진 앵커들 가진 앵커 세트를 복수 개를 준비하는 것은 본 명세서에 따른 객체 탐지 장치(100)가 설치/사용되는 다양한 환경에 대응하기 위함이다. 따라서, 상기 앵커 세트의 개수는 메모리(120)의 저장용량, 예상되는 설치/사용 환경에 따라 다양할 수 있다. 한편, 다양한 특성을 가진 앵커 세트를 생성하는 방법은 아래와 같을 수 있다.

본 명세서의 일 실시예에 따르면, 각 앵커 세트는 동일한 원본 이미지를 서로 다른 해상도로 변환된 이미지 데이터를 이용하여 학습될 수 있다. 본 명세서의 다른 실시예에 따르면, 각 앵커 세트는 동일한 해상도를 가지지만 객체 크기의 분포가 서로 다른 이미지 데이터로 학습될 수 있다. 본 명세서의 또 다른 실시예에 따르면, 각 앵커 세트는 원본 이미지의 주변을 크롭(cropping) 또는 패딩(padding)하여 동일 해상도로 변환한 이미지 데이터로 학습될 수 있다. 본 명세서의 또 다른 실시예에 따르면, 각 앵커 세트는 원본 이미지를 데이터 증강 기법을 통해 확장된 이미지 데이터로 학습될 수 있다. 다수의 이미지 데이터를 이용하여 YOLO 알고리즘의 앵커를 학습시키는 방법은 당업자에게 알려 진바 상세한 설명은 생략한다.

다시 도 2를 참조하여, 상기 프로세서(130)는 복수의 앵커 세트 중 상기 카메라부에 촬영된 입력 이미지에서 객체를 탐지하기 위한 어느 하나의 앵커 세트를 선택할 수 있다. 이때, 상기 프로세서(130)가 선택하는 하나의 앵커 세트는 본 명세서에 따른 객체 탐지 장치(100)가 설치/사용된 환경에 가장 적합한 앵커 세트이다.

이하에서는 본 명세서에 따른 최적 YOLO 앵커 선택 방법을 설명한다. 다만, 본 명세서에 따른 최적 YOLO 앵커 선택 방법은 본 명세서에 따른 객체 탐지 장치(100)의 프로세서(130)에 의해 실행될 수 있는 방법으로서, 객체 탐지 장치(100)의 각 구성에 대한 반복적인 설명은 생략한다.

도 4는 본 명세서에 따른 최적 YOLO 앵커 선택 방법의 개략적인 흐름도이다.

도 4를 참조하면, 먼저 단계 S110에서 상기 카메라(110)가 입력 이미지를 출력할 때, 상기 프로세서(130)는 상기 입력 이미지를 상기 메모리(120)에 저장시킬 수 있다. 그리고 상기 프로세서(130)는 다음 단계 S120으로 이행할 수 있다.

단계 S120에서 상기 프로세서(130)는 상기 복수의 앵커 세트 중 미리 설정된 기준 앵커 세트를 이용하여 입력 이미지에서 객체를 탐지할 수 있다. 상기 기준 앵커는 객체 탐지 장치(100)의 제조자 또는 사용자가 임의로 설정할 수 있다. YOLO 알고리즘에 따라 이미지에서 객체의 위치와 크기를 탐지하는 방법은 당업자에게 알려 진바 상세한 설명은 생략한다. 그리고 상기 프로세서(130)는 다음 단계 S130으로 이행할 수 있다.

단계 S130에서 상기 프로세서(130)는 탐지된 객체의 박스 크기에 대한 데이터를 상기 메모리(120)에 저장시킬 수 있다. 일 예에 따르면, 메모리에 저장된 객체의 박스 크기는 가로 폭 값과 세로 길이 값(X_i, Y_i)으로 저장될 수 있다. 가로 폭 값과 세로 길이 값의 아래 첨자 'i'는 메모리에 저장된 박스의 식별 번호이다. 상기 메모리(120)에는 다수의 객체 박스에 대한 데이터가 저장될 수 있으며, 이를 식별하기 위해 식별 번호가 부여될 수 있다. 그리고 상기 프로세서(130)는 다음 단계 S140으로 이행할 수 있다.

단계 S140에서 상기 프로세서(130)는 상기 메모리(120)에 박스 크기 데이터의 개수가 미리 설정된 개수(m)에 도달하였는지 판단할 수 있다. 일 예시로 상기 'm'은 10,000일 수 있다. 누적된 박스 크기 데이터가 1만개보다 적은 경우, 상기 프로세서(130)는 S110으로 이행하여 단계 S110 내지 S140을 반복 실행할 수 있다. 반면, 본 명세서에서는 1만개의 박스 크기 데이터가 누적되었을 때, 상기 프로세서(130)는 다음 단계 S150으로 이행할 수 있다. 즉, 상기 프로세서(130)는 상기 메모리(120)에 미리 설정된 개수의 박스 크기 데이터가 저장될 때 단계 S150을 실행할 수 있다.

단계 S150에서 상기 프로세서(130)는 상기 메모리에 저장된 복수의 앵커 세트 중 각 앵커 세트에 포함된 앵커의 크기와 상기 메모리에 저장된 객체의 박스 크기 사이에서 크기 차이가 가장 작은 앵커 세트를 판별할 수 있다. 크기 차이가 가장 작은 앵커 세트란, 입력 이미지에 포함된 객체를 가장 잘 탐지할 수 있는 앵커들을 포함하는 세트이다. 즉, 본 명세서에 따른 객체 탐지 장치(100)가 설치/사용된 환경에 가장 최적의 앵커 세트에 해당할 수 있다. 크기 차이가 가장 작은 앵커 세트를 판별하는 방법에 대해서는 이후에 다시 설명하겠다. 그리고 상기 프로세서(130)는 다음 단계 S160으로 이행할 수 있다.

단계 S160에서 상기 프로세서(130)는 크기 차이가 가장 작은 것으로 판별된 앵커 세트로 기준 앵커 세트를 교체하여 이후의 입력 이미지에서 객체를 탐지할 수 있다.

본 명세서의 일 실시예에 따르면, 단계 S160 이후 단계 S170에서 상기 프로세서(130)는 상기 메모리(120)에 저장된 객체의 박스 크기에 대한 데이터를 초기화할 수 있다. 그리고 상기 프로세서(130)는 단계 S110으로 이행하여 단계 S110 내지 단계 S170을 반복 실행할 수 있다. 다만, 단계 S170이후 단계 S120을 실행할 때에는 단계 S160에서 탐지된 박스 크기에 대한 데이터를 이용하여 실행될 수 있다. 이를 통해, 본 명세서에 따른 객체 탐지 장치(100)가 설치된 장소가 변경된 경우 또는 설치된 환경이 변화된 경우에도 최적의 앵커 세트를 자동적으로 재 선정할 수 있다.

이하에서는 단계 S150에서 크기 차이가 가장 작은 앵커 세트를 판별하는 방법에 대해서 보다 상세히 설명하겠다.

본 명세서의 일 실시예에 따르면, 상기 프로세서(130)는 아래 수학식 1을 통해 산출된 L값이 가장 작은 앵커 세트를 크기 차이가 가장 작은 앵커 세트로 판별할 수 있다.

- (X_i, Y_i) : 메모리에 저장된 객체의 박스 크기 값

- (X_j,k , Y_j,k) : 각 앵커 세트에 포함된 앵커의 크기 값

- j : 앵커 세트의 식별 번호

- k : 각 앵커 세트에 포함된 앵커의 식별 번호

본 명세서의 다른 실시예에 따르면, 상기 프로세서(130)는 아래 수학식 2를 통해 산출된 L값이 가장 작은 앵커 세트를 크기 차이가 가장 작은 앵커 세트로 판별할 수 있다.

- (X_i, Y_i) : 메모리에 저장된 객체의 박스 크기 값

- (X_j,k , Y_j,k) : 각 앵커 세트에 포함된 앵커의 크기 값

- j : 앵커 세트의 식별 번호

- k : 각 앵커 세트에 포함된 앵커의 식별 번호

본 명세서의 또 다른 실시예에 따르면, 상기 프로세서(130)는 아래 수학식 3을 통해 산출된 L값이 가장 작은 앵커 세트를 크기 차이가 가장 작은 앵커 세트로 판별할 수 있다.

- (X_i, Y_i) : 메모리에 저장된 객체의 박스 크기 값

- (X_j,k , Y_j,k) : 각 앵커 세트에 포함된 앵커의 크기 값

- j : 앵커 세트의 식별 번호

- k : 각 앵커 세트에 포함된 앵커의 식별 번호

도 5는 YOLO 알고리즘의 앵커로부터 박스의 크기를 찾아내는 방법의 참고도이다.

도 5를 참조하면, 점선으로 표현된 앵커가 (청색)실선으로 표현된 객체를 탐지하는 박스를 확인할 수 있다. YOLO 알고리즘은 원본 이미지를 동일한 크기의 그리드로 나누고, 각 그리드에 대해 그리드 중앙을 중심으로 앵커를 위치시킨다. 이때, 앵커 내에 배경만 단독으로 탐지되지 않은 경우 즉, 앵커 내에 객체가 탐지될 경우, 객체를 모두 포함시킬 수 있도록 중심을 이동시키고 객체의 크기에 맞추어 경계박스의 크기를 조절한다. 이때, 앵커의 크기를 지수함수를 이용하여 선형적으로 크기를 조절할 수 있다. 따라서, 수학식 2와 같이, 메모리에 저장된 객체의 박스가 가진 폭의 크기(X_i)를 각 앵커 세트에 포함된 앵커가 가진 폭의 크기(X_j,k)로 나누었을 때, 그 비율이 1에 가까울 수록 크기 차이가 가장 작은 앵커 세트에 해당할 수 있다. 같은 방법으로 수학식 3과 같이, 상기 비율의 로그값이 0에 가장 가까운 앵커 세트를 크기 차이가 가장 작은 앵커 세트로 판별할 수도 있다.

도 6은 실제 환경에서 앵커의 크기에 따른 객체 탐지 능력의 비교 예시이다.

도 6을 참조하면, 416x416 해상도를 가진 이미지로 학습시킨 앵커 세트 중에서 가장 작은 앵커와 224x224 해상도를 가진 이미지로 학습시킨 앵커 세트 중에서 가장 작은 앵커를 각각 확인할 수 있다. 해상도만 다르고 같은 이미지로 학습한 두 앵커 세트 각각의 가장 작은 앵커는 크기가 서로 다를 뿐, 가로 폭과 세로 길이의 비율이 동일하다. 이때 사람이 촬영된 512 pixel의 이미지를 YOLO 알고리즘을 통해 동일한 조건하에서 객체 탐지시켜 본 상황이다. 즉, 도 1의 중간 이미지의 가로 크기가 512 pixel이 되도록 설정한 상황이다. 입력 이미지의 특징상 카메라와 사람의 거리가 이격되어 있어, 이미지 내 사람이 작게 촬영되는 환경을 가정한 상황이다. 즉, 객체가 작게 촬영되는 환경에서 촬영된 이미지에서 224x224 해상도를 가진 이미지로 학습시킨 앵커가 보다 잘 객체를 탐지하는 것을 확인할 수 있었다.

한편, 상기 프로세서는 위에서 설명한 다양한 산출 및 제어 로직을 실행하기 위해 본 발명이 속한 기술분야에 알려진 ASIC(application-specific integrated circuit), 다른 칩셋, 논리 회로, 레지스터, 통신 모뎀, 데이터 처리 장치 등을 포함할 수 있다. 또한, 상술한 로직이 소프트웨어로 구현될 때, 상기 프로세서는 프로그램 모듈의 집합으로 구현될 수 있다. 이 때, 프로그램 모듈은 상기 메모리에 저장되고, 프로세서에 의해 실행될 수 있다.

상기 프로그램은, 상기 컴퓨터가 프로그램을 읽어 들여 프로그램으로 구현된 상기 방법들을 실행시키기 위하여, 상기 컴퓨터의 프로세서(CPU)가 상기 컴퓨터의 장치 인터페이스를 통해 읽힐 수 있는 C/C++, C#, JAVA, Python, 기계어 등의 컴퓨터 언어로 코드화된 코드(Code)를 포함할 수 있다. 이러한 코드는 상기 방법들을 실행하는 필요한 기능들을 정의한 함수 등과 관련된 기능적인 코드(Functional Code)를 포함할 수 있고, 상기 기능들을 상기 컴퓨터의 프로세서가 소정의 절차대로 실행시키는데 필요한 실행 절차 관련 제어 코드를 포함할 수 있다. 또한, 이러한 코드는 상기 기능들을 상기 컴퓨터의 프로세서가 실행시키는데 필요한 추가 정보나 미디어가 상기 컴퓨터의 내부 또는 외부 메모리의 어느 위치(주소 번지)에서 참조되어야 하는지에 대한 메모리 참조관련 코드를 더 포함할 수 있다. 또한, 상기 컴퓨터의 프로세서가 상기 기능들을 실행시키기 위하여 원격(Remote)에 있는 어떠한 다른 컴퓨터나 서버 등과 통신이 필요한 경우, 코드는 상기 컴퓨터의 통신 모듈을 이용하여 원격에 있는 어떠한 다른 컴퓨터나 서버 등과 어떻게 통신해야 하는지, 통신 시 어떠한 정보나 미디어를 송수신해야 하는지 등에 대한 통신 관련 코드를 더 포함할 수 있다.

상기 저장되는 매체는, 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상기 저장되는 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있지만, 이에 제한되지 않는다. 즉, 상기 프로그램은 상기 컴퓨터가 접속할 수 있는 다양한 서버 상의 다양한 기록매체 또는 사용자의 상기 컴퓨터상의 다양한 기록매체에 저장될 수 있다. 또한, 상기 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장될 수 있다.

이상, 첨부된 도면을 참조로 하여 본 명세서의 실시예를 설명하였지만, 본 명세서가 속하는 기술분야의 통상의 기술자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며, 제한적이 아닌 것으로 이해해야만 한다.

100 : 객체 탐지 장치
110 : 카메라
120 : 메모리
130 : 프로세서

Claims

미리 설정된 개수의 앵커를 가진 복수의 앵커 세트를 저장한 메모리 및 프로세서를 이용하여 YOLO 앵커를 선택하는 방법으로서, 상기 프로세서가
(a) 상기 복수의 앵커 세트 중 미리 설정된 기준 앵커 세트를 이용하여 입력 이미지에서 객체를 탐지하고, 탐지된 객체의 박스 크기에 대한 데이터를 상기 메모리에 저장하는 단계;
(b) 상기 메모리에 저장된 복수의 앵커 세트 중 각 앵커 세트에 포함된 앵커의 크기와 상기 메모리에 저장된 객체의 박스 크기 사이에서 크기 차이가 가장 작은 앵커 세트를 판별하는 단계; 및
(c) 상기 (b) 단계에서 크기 차이가 가장 작은 것으로 판별된 앵커 세트를 이용하여 입력 이미지에서 객체를 탐지하는 단계;를 포함하는 YOLO 앵커 선택 방법.
청구항 1에 있어서,
상기 (b) 단계는, 상기 메모리에 미리 설정된 개수의 박스 크기 데이터가 저장될 때 실행되는 것을 특징으로 하는 YOLO 앵커 선택 방법.
청구항 2에 있어서,
(d) 상기 메모리에 저장된 객체의 박스 크기에 대한 데이터를 초기화하고, 상기 (c) 단계에서 탐지된 객체의 박스 크기에 대한 데이터를 상기 메모리에 다시 저장하는 단계;를 더 포함하되,
상기 메모리에 미리 설정된 개수의 박스 크기 데이터가 저장될 때마다 상기 (b) 내지 (d) 단계를 반복 실행하는 YOLO 앵커 선택 방법.
청구항 1에 있어서,
상기 복수의 앵커 세트 중 어느 하나의 앵커 세트에 포함된 앵커들과 다른 앵커 세트에 포함된 앵커들은 가로 대 세로 비율이 각각 상호 대응하는 앵커들로 구성되며, 상기 상호 대응하는 앵커들은 서로 다른 크기를 가진 것을 특징으로 하는 YOLO 앵커 선택 방법.
청구항 4에 있어서,
상기 상호 대응하는 앵커들을 가진 각 앵커 세트는 동일한 원본 이미지를 서로 다른 해상도로 변환된 이미지 데이터를 이용하여 학습된 것을 특징으로 하는 YOLO 앵커 선택 방법.
청구항 4에 있어서,
상기 상호 대응하는 앵커들을 가진 각 앵커 세트는 동일한 해상도를 가지지만 객체 크기의 분포가 서로 다른 이미지 데이터로 학습된 것을 특징으로 하는 YOLO 앵커 선택 방법.
청구항 4에 있어서,
상기 상호 대응하는 앵커들은 가진 각 앵커 세트는 원본 이미지의 주변을 크롭 또는 패딩하여 동일 해상도로 변환한 이미지 데이터로 학습된 것을 특징으로 하는 YOLO 앵커 선택 방법.
청구항 4에 있어서,
상기 상호 대응하는 앵커들은 가진 각 앵커 세트는 원본 이미지를 데이터 증강 기법을 통해 확장된 이미지 데이터로 학습된 것을 특징으로 하는 YOLO 앵커 선택 방법.
청구항 1에 있어서,
상기 (b) 단계는,
아래 수식을 통해 산출된 L값이 가장 작은 앵커 세트를 크기 차이가 가장 작은 앵커 세트로 판별하는 단계인 YOLO 앵커 선택 방법.
[수식]

- (X_i, Y_i) : 메모리에 저장된 객체의 박스 크기 값
- i : 메모리에 저장된 박스의 식별 번호(저장된 박스의 개수: m)
- (X_j,k , Y_j,k) : 각 앵커 세트에 포함된 앵커의 크기 값
- j : 앵커 세트의 식별 번호
- k : 각 앵커 세트에 포함된 앵커의 식별 번호
청구항 1에 있어서,
상기 (b) 단계는,
아래 수식을 통해 산출된 L값이 가장 작은 앵커 세트를 크기 차이가 가장 작은 앵커 세트로 판별하는 단계인 YOLO 앵커 선택 방법.
[수식]

- (X_i, Y_i) : 메모리에 저장된 객체의 박스 크기 값
- i : 메모리에 저장된 박스의 식별 번호(저장된 박스의 개수: m)
- (X_j,k , Y_j,k) : 각 앵커 세트에 포함된 앵커의 크기 값
- j : 앵커 세트의 식별 번호
- k : 각 앵커 세트에 포함된 앵커의 식별 번호
청구항 1에 있어서,
상기 (b) 단계는,
아래 수식을 통해 산출된 L값이 가장 작은 앵커 세트를 크기 차이가 가장 작은 앵커 세트로 판별하는 단계인 YOLO 앵커 선택 방법.
[수식]

- (X_i, Y_i) : 메모리에 저장된 객체의 박스 크기 값
- i : 메모리에 저장된 박스의 식별 번호(저장된 박스의 개수: m)
- (X_j,k , Y_j,k) : 각 앵커 세트에 포함된 앵커의 크기 값
- j : 앵커 세트의 식별 번호
- k : 각 앵커 세트에 포함된 앵커의 식별 번호
컴퓨터에서 청구항 1 내지 청구항 11 중 어느 한 청구항에 따른 YOLO 앵커 선택 방법의 각 단계들을 수행하도록 작성되어 컴퓨터로 독출 가능한 기록 매체에 기록된 컴퓨터프로그램.
입력 이미지를 출력하는 카메라;
미리 설정된 개수의 앵커를 가진 복수의 앵커 세트를 저장한 메모리; 및
복수의 앵커 세트 중 상기 카메라에 촬영된 입력 이미지에서 객체를 탐지하기 위한 어느 하나의 앵커 세트를 선택하는 프로세서;를 포함하는 YOLO 알고리즘을 이용한 객체 탐지 장치로서,
상기 프로세서는,
상기 복수의 앵커 세트 중 미리 설정된 기준 앵커 세트를 이용하여 입력 이미지에서 객체를 탐지하고, 탐지된 객체의 박스 크기에 대한 데이터를 상기 메모리에 저장하고, 상기 메모리에 저장된 복수의 앵커 세트 중 각 앵커 세트에 포함된 앵커의 크기와 상기 메모리에 저장된 객체의 박스 크기 사이에서 크기 차이가 가장 작은 앵커 세트를 판별하고, 크기 차이가 가장 작은 것으로 판별된 앵커 세트를 이용하여 입력 이미지에서 객체를 탐지하는 것을 특징으로 하는 YOLO 알고리즘을 이용한 객체 탐지 장치.