WO2023128323A1

WO2023128323A1 - 목표 객체를 검출하는 전자 장치 및 방법

Info

Publication number: WO2023128323A1
Application number: PCT/KR2022/019101
Authority: WO
Inventors: 송주용; 강병철; 손영철; 강일구; 최성현
Original assignee: 삼성전자 주식회사
Priority date: 2021-12-28
Filing date: 2022-11-29
Publication date: 2023-07-06

Abstract

목표 객체를 검출하기 위한 전자 장치는 제1 객체 및 제2 객체를 포함하는 이미지를 인공지능 모델에 적용하여, 제1 객체에 대응되는 제1 후보 박스들 및 제2 객체에 대응되는 제2 후보 박스들을 획득하고, 상기 인공지능 모델은, 인접한 두 객체에 대응되는 후보 박스들 간의 크기 차이가 줄어들도록 하기 위한 손실 함수를 이용하여 후보 박스들의 크기를 결정하도록 훈련되는 것을 특징으로 할 수 있다.

Description

목표 객체를 검출하는 전자 장치 및 방법

본 개시는 입력 이미지에 포함된 목표 객체를 검출하는 전자 장치 및 방법에 관한 것이다.

영상 내에서 객체를 검출하는 영상 인식 또는 객체 검출 시스템은, 디지털 영상 또는 비디오 프레임으로부터 단일 객체 또는 복수의 객체들을 검출하고, 의미적 분할(semantic segmentation)을 수행할 수 있다. 여기서 객체 검출은, 영상 내에서의 객체의 위치 및 크기를 경계 박스(bounding box)의 형태로 추정하고, 주어진 영상 내에서 특정 객체를 분류(classification)하는 것을 의미할 수 있다. 또한, 의미적 분할은, 이와 같이 검출된 객체 박스 내에서, 객체의 정확한 형태를 픽셀 단위로 세분화하는 것을 의미할 수 있다.

한편, 객체를 검출하기 위해 입력되는 영상은 격자 형태(grid)로 주어지는 경우가 다수 있다. 이 때, 영상 내 객체들 또한 격자 형태로 배치되는 경우가 많다. 이러한 경우, 종래 기술은 격자 형태의 객체들에 대하여 부정확한 위치를 추정하게 되거나, 사람이 패턴을 직접 그려주어야 하는 불편함이 있었다.

개시된 다양한 실시예들은, 격자 형태(grid)로 주어진 입력 이미지의 규칙성을 이용하여, 객체를 보다 정확하게 검출하는 전자 장치 및 방법을 제공할 수 있다.

본 문서에 개시되는 일 실시 예에 따른, 목표 객체를 검출하기 위한 전자 장치는 디스플레이; 하나 이상의 인스트럭션을 저장하는 메모리; 및 상기 메모리에 저장된 상기 하나 이상의 인스트럭션을 실행하는 프로세서를 포함하고, 상기 프로세서는, 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 메모리에 저장된, 제1 객체 및 제2 객체를 포함하는 이미지를 인공지능 모델에 적용하여, 상기 제1 객체에 대한 제1 출력 데이터 및 상기 제2 객체에 대한 제2 출력 데이터를 포함하는 출력 데이터를 획득하되, 상기 제1 객체에 대한 제1 출력 데이터는 상기 제1 객체에 대응되는 복수의 제1 후보 박스들에 관한 데이터를 포함하고, 상기 제2 객체에 대한 제2 출력 데이터는 상기 제2 객체에 대응되는 복수의 제2 후보 박스들에 관한 데이터를 포함하고, 상기 복수의 제1 후보 박스들 중 하나를 선택함으로써 상기 제1 객체에 대응되는 제1 검출 박스를 결정하고, 상기 복수의 제2 후보 박스들 중 하나를 선택함으로써 상기 제2 객체에 대응되는 제2 검출 박스를 결정하고, 상기 제1 검출 박스는 상기 이미지 내에서 상기 제1 객체를 검출하기 위해 이용되고, 상기 제2 검출 박스는 상기 이미지 내에서 상기 제2 객체를 검출하기 위해 이용되고, 상기 인공지능 모델은, 제3 객체 및 상기 제3 객체와 인접하여 배치되는 제4 객체를 포함하는 훈련 이미지를 획득하고, 상기 훈련 이미지를 이용하여, 상기 제3 객체에 대응되는 복수의 제3 후보 박스들 및 상기 제4 객체에 대응되는 복수의 제4 후보 박스들을 출력하고, 상기 제3 후보 박스들 및 상기 제4 후보 박스들 간의 크기 차이가 줄어들도록 하기 위한 손실 함수를 이용하여 상기 제3 후보 박스들의 크기 및 상기 제4 후보 박스들의 크기를 결정하도록 훈련되는 것을 특징으로 할 수 있다.

또한, 본 문서에 개시되는 일 실시예에 따른, 목표 객체를 검출하는 방법은, 제1 객체 및 제2 객체를 포함하는 이미지를 인공지능 모델에 적용하여, 상기 제1 객체에 대한 제1 출력 데이터 및 상기 제2 객체에 대한 제2 출력 데이터를 포함하는 출력 데이터를 획득하되, 상기 제1 객체에 대한 제1 출력 데이터는 상기 제1 객체에 대응되는 복수의 제1 후보 박스들에 관한 데이터를 포함하고, 상기 제2 객체에 대한 제2 출력 데이터는 상기 제2 객체에 대응되는 복수의 제2 후보 박스들에 관한 데이터를 포함하는 것인, 단계; 상기 복수의 제1 후보 박스들 중 하나를 선택함으로써 상기 제1 객체에 대응되는 제1 검출 박스를 결정하는 단계; 상기 복수의 제2 후보 박스들 중 하나를 선택함으로써 상기 제2 객체에 대응되는 제2 검출 박스를 결정하는 단계; 및 상기 제1 검출 박스는 상기 이미지 내에서 상기 제1 객체를 검출하기 위해 이용되고, 상기 제2 검출 박스는 상기 이미지 내에서 상기 제2 객체를 검출하기 위해 이용되는 단계를 포함하며, 상기 인공지능 모델은, 제3 객체 및 상기 제3 객체와 인접하여 배치되는 제4 객체를 포함하는 훈련 이미지를 획득하고, 상기 훈련 이미지를 이용하여, 상기 제3 객체에 대응되는 복수의 제3 후보 박스들 및 상기 제4 객체에 대응되는 복수의 제4 후보 박스들을 출력하고, 상기 제3 후보 박스들 및 상기 제4 후보 박스들 간의 크기 차이가 줄어들도록 하기 위한 손실 함수를 이용하여 상기 제3 후보 박스들의 크기 및 상기 제4 후보 박스들의 크기를 결정하도록 훈련되는 것을 특징으로 할 수 있다.

도 1은 일 실시예에 따라, 주어진 이미지 내의 객체를 격자 형태로 검출하는 예시를 나타내는 도면이다.

도 2는 일 실시예에 따른 전자 장치의 구성을 도시한 블록도들이다.

도 3, 도 4, 도 5a 및 도 5b는 일 실시예에 따라, 주어진 이미지 내의 객체를 정확하게 검출하기 위해 데이터를 학습하는 예시를 나타내는 도면들이다.

도 6은 일 실시예에 따라, 주어진 이미지 내의 객체를 정확하기 검출하기 위해 데이터를 학습하는 방법을 설명하는 순서도이다.

도 7, 도 8 및 도 9는 일 실시예에 따라, 주어진 이미지 내의 객체를 정확하게 검출하기 위한 방법을 설명하는 도면들이다.

도 10은 일 실시예에 따라, 주어진 이미지 내의 객체를 정확하게 검출하기 위한 방법을 설명하는 순서도이다.

도 11, 도 12, 도 13 및 도 14는 일 실시예에 따라, 주어진 이미지 내의 객체를 정확하게 검출하기 위해, 검출 박스를 격자 형태로 재구성하는 방법을 설명하는 도면들이다.

도 15, 도 16, 도 17, 도 18 및 도 19는 일 실시예에 따라, 주어진 이미지 내의 객체를 그룹화하는 방법을 설명하는 도면들이다.

본 개시에서, "a, b 또는 c 중 적어도 하나" 표현은 " a", " b", " c", "a 및 b", "a 및 c", "b 및 c", "a, b 및 c 모두", 혹은 그 변형들을 지칭할 수 있다.

아래에서는 첨부한 도면을 참조하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 개시의 실시예를 상세히 설명한다. 그러나 본 개시는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 개시를 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

본 개시에 따른 인공지능과 관련된 기능은 프로세서와 메모리를 통해 동작된다. 프로세서는 하나 또는 복수의 프로세서로 구성될 수 있다. 이때, 하나 또는 복수의 프로세서는 CPU, AP, DSP(Digital Signal Processor) 등과 같은 범용 프로세서, GPU, VPU(Vision Processing Unit)와 같은 그래픽 전용 프로세서 또는 NPU와 같은 인공지능 전용 프로세서일 수 있다. 하나 또는 복수의 프로세서는, 메모리에 저장된 기 정의된 동작 규칙에 따라 또는 인공지능 모델을 이용하여, 입력 데이터를 처리하도록 제어한다. 또는, 하나 또는 복수의 프로세서가 인공지능 전용 프로세서인 경우, 인공지능 전용 프로세서는, 특정 인공지능 모델의 처리에 특화된 하드웨어 구조로 설계될 수 있다.

기 정의된 동작 규칙 또는 인공지능 모델은 학습을 통해 만들어진 것을 특징으로 한다. 여기서, 학습을 통해 만들어진다는 것은, 기본 인공지능 모델이 학습 알고리즘에 의하여 다수의 학습 데이터들을 이용하여 학습됨으로써, 원하는 특성(또는, 목적)을 수행하도록 설정된 기 정의된 동작 규칙 또는 인공지능 모델이 만들어짐을 의미한다. 이러한 학습은 본 개시에 따른 인공지능이 수행되는 기기 자체에서 이루어질 수도 있고, 별도의 서버 및/또는 시스템을 통해 이루어 질 수도 있다. 학습 알고리즘의 예로는, 지도형 학습(supervised learning), 비지도형 학습(unsupervised learning), 준지도형 학습(semi-supervised learning) 또는 강화 학습(reinforcement learning)이 있으나, 전술한 예에 한정되지 않는다.

인공지능 모델은, 복수의 신경망 레이어들로 구성될 수 있다. 복수의 신경망 레이어들 각각은 복수의 노드들과 가중치들(weight values)을 갖고 있으며, 이전(previous) 레이어의 연산 결과와 복수의 가중치들 간의 연산을 통해 신경망 연산을 수행한다. 복수의 신경망 레이어들이 갖고 있는 복수의 가중치들은 인공지능 모델의 학습 결과에 의해 최적화될 수 있다. 예를 들어, 학습 과정 동안 인공지능 모델에서 획득한 로스(loss) 값 또는 코스트(cost) 값이 감소 또는 최소화되도록 복수의 가중치들이 갱신될 수 있다. 또한, 손실값 또는 코스트 값을 최소화하기 위해, 손실값 또는 코스트값과 관련된 그래디언트를 최소화하는 방향으로 복수의 가중치들이 갱신될 수 있다. 인공 신경망은 심층 신경망(DNN:Deep Neural Network)를 포함할 수 있으며, 예를 들어, CNN (Convolutional Neural Network), DNN (Deep Neural Network), Transformers, RNN (Recurrent Neural Network), RBM (Restricted Boltzmann Machine), DBN (Deep Belief Network), BRDNN(Bidirectional Recurrent Deep Neural Network) 또는 심층 Q-네트워크 (Deep Q-Networks) 등이 있으나, 전술한 예에 한정되지 않는다.

이하 첨부된 도면을 참고하여 본 개시를 상세히 설명하기로 한다.

도 2는 일 실시예에 따른 전자 장치의 구성을 도시한 블록도이다.

도 1 및 도 2를 참조하면, 일 실시예에 따른, 목표 객체를 검출하기 위한 전자 장치(100)는 도 2에 도시된 바와 같이, 출력부(120), 제어부(130) 및 메모리(140)를 포함할 수 있다. 그러나, 도 2에 도시된 구성 요소 모두가 전자 장치의 필수 구성 요소인 것은 아니다. 도 2에 도시된 구성 요소보다 많은 구성 요소에 의해 전자 장치가 구현될 수도 있고, 도 2에 도시된 구성 요소보다 적은 구성 요소에 의해 전자 장치가 구현될 수도 있다.

예를 들어, 전자 장치(100)는, 출력부(120), 제어부(130) 및 메모리(140) 이외에 사용자 입력부, 통신부를 더 포함할 수도 있다.

출력부(120)는, 오디오 신호 또는 비디오 신호 또는 진동 신호의 출력을 위한 수단을 포함할 수 있다. 예를 들어, 출력부(120)는 디스플레이부와 음향 출력부, 진동 모터 등을 포함할 수 있다.

디스플레이부는 후술할 제어부(130)에 의해 제어됨으로써, 전자 장치(100)에서 처리되는 정보를 디스플레이한다. 디스플레이부는 적어도 하나의 이미지를 디스플레이할 수 있다. 예를 들어, 디스플레이부는 적어도 하나의 이미지 내의 객체를 검출한 검출 박스를 디스플레이할 수 있다.

한편, 디스플레이부가 터치패드와 레이어 구조를 이루어 터치 스크린으로 구성되는 경우, 디스플레이부는 출력 장치 이외에 입력 장치로도 사용될 수 있다. 디스플레이부는 액정 디스플레이(liquid crystal display), 박막 트랜지스터 액정 디스플레이(thin film transistor-liquid crystal display), 유기 발광 다이오드(organic light-emitting diode), 플렉시블 디스플레이(flexible display), 3차원 디스플레이(3D display), 전기영동 디스플레이(electrophoretic display) 중에서 적어도 하나를 포함할 수 있다. 그리고 전자 장치(100)의 구현 형태에 따라 전자 장치(100)는 디스플레이부를 2개 이상 포함할 수도 있다.

음향 출력부는 통신부에 의해 수신되거나 메모리에 저장된 오디오 데이터를 출력한다. 또한, 음향 출력부는 전자 장치(100)에서 수행되는 기능(예를 들어, 메시지 수신음, 알림음)과 관련된 음향 신호를 출력한다. 이러한 음향 출력부에는 스피커(speaker), 버저(Buzzer) 등이 포함될 수 있다.

진동 모터는 진동 신호를 출력할 수 있다. 예를 들어, 진동 모터는 오디오 데이터 또는 비디오 데이터(예컨대, 메시지 수신음, 알림음)의 출력에 대응하는 진동 신호를 출력할 수 있다. 또한, 진동 모터는 터치스크린에 터치가 입력되는 경우 진동 신호를 출력할 수도 있다.

제어부(130)는, 통상적으로 전자 장치(100)의 전반적인 동작을 제어한다. 제어부(130)는 적어도 하나의 프로세서를 구비할 수 있다. 제어부(130)는 그 기능 및 역할에 따라, 복수의 프로세서들을 포함하거나, 통합된 형태의 하나의 프로세서를 포함할 수 있다.

일 실시예에 따르면, 제어부(130)는, 메모리(140)에 저장된 프로그램들을 실행함으로써, 사용자 입력부, 출력부(120), 통신부 등을 전반적으로 제어할 수 있다. 또한, 제어부(130)는 사용자 입력부, 출력부(120) 및 통신부를 제어함으로써, 전자 장치(100)가 적어도 하나의 객체의 검출 결과를 제공할 수 있도록 할 수 있다.

구체적으로, 제어부(130)는 메모리(140)에 저장된 하나 이상의 인스트럭션을 실행함으로써, 메모리(140)에 저장된 제1 객체 및 제2 객체를 포함하는 이미지를 획득하고, 이미지 내에 포함된 제1 객체 및 제2 객체에 각각 대응되는 복수의 제1 후보 박스들 및 제2 후보 박스들을 생성할 수 있다. 제어부(130)는 복수의 제1 후보 박스들 중 하나를 선택함으로써 제1 객체에 대응되는 제1 검출 박스를 결정하고, 복수의 제2 후보 박스들 중 하나를 선택함으로써 제2 객체에 대응되는 제2 검출 박스를 결정할 수 있다. 제어부(130)는 결정된 제1 검출 박스 및 제2 검출 박스를 이용하여 이미지 내의 제1 객체 및 제2 객체를 각각 검출할 수 있다.

예를 들어, 도 2에 도시된 바와 같이, 제어부(130)는 이미지(10)에 포함된 격자 형태로 배치된 객체들(20, 30, 40) 중 각각의 객체에 대응되는 복수의 후보 박스들을 생성하고, 복수의 후보 박스들 중 하나를 선택함으로써 객체(20, 30, 40) 별로 대응되는 검출 박스(21, 31, 41)를 결정할 수 있다. 제어부(130)는, 결정된 검출 박스(21, 31, 41)를 그리드 형태로 되도록 조정할 수 있다. 이에 따라, 전자 장치(100)는 격자 형태로 배치된 객체들을 더욱 정확히 검출할 수 있다. 구체적인 프로세스는 이후 도면을 통해 후술한다.

일 실시예에 따르면, 제어부(130)는 적어도 하나의 인공지능 모델에 대한 훈련 및 적용을 수행하기 위한 구성을 포함할 수 있다. 제어부(130)는 인공지능 기술을 이용한 적어도 하나의 인공지능 모델을 이용하여 이미지 내 객체를 검출하기 위한 전용의 프로세싱 유닛을 포함하는 것으로 이해될 수 있다.

구체적으로, 인공지능 모델은 제3 객체 및 제3 객체와 인접하여 배치되는 제4 객체를 포함하는 훈련 이미지를 획득하고, 훈련 이미지를 이용하여 제3 객체에 대응되는 복수의 제3 후보 박스들 및 제4 객체에 대응되는 복수의 제4 후보 박스들을 출력할 수 있다. 인공지능 모델은, 제3 후보 박스들 및 제4 후보 박스들 간의 크기 차이가 줄어들도록 하기 위한 손실 함수를 이용하여 제3 후보 박스들과 제4 후보 박스들의 크기를 결정하도록 훈련될 수 있다. 구체적인 학습 방법에 관하여, 도 3, 도 4, 도 5a 및 도 5b를 이용하여 후술한다.

또한, 제어부(130)는, 통신부를 제어함으로써, 전자 장치(100)가 접근 가능한 이미지를 외부 장치 및 서버와 송수신할 수 있다.

메모리(140)는, 제어부(130)의 처리 및 제어를 위한 프로그램을 저장할 수 있고, 전자 장치(100)로 입력되거나 전자 장치(100)로부터 출력되는 데이터를 저장할 수도 있다.

메모리(140)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD(Secure Digital) 또는 XD(eXtreme Digital) 메모리 등), 램(RAM, Random Access Memory) SRAM(Static Random Access Memory), 롬(ROM, Read-Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다.

사용자 입력부는, 사용자가 전자 장치(100)를 제어하기 위한 데이터를 입력하는 수단을 의미한다. 예를 들어, 사용자 입력부에는 키 패드(key pad), 돔 스위치 (dome switch), 터치 패드(접촉식 정전 용량 방식, 압력식 저항막 방식, 적외선 감지 방식, 표면 초음파 전도 방식, 적분식 장력 측정 방식, 피에조 효과 방식 등), 조그 휠, 조그 스위치 등이 있을 수 있으나 이에 한정되는 것은 아니다.

사용자 입력부는, 사용자 입력을 수신할 수 있다. 예를 들어, 사용자 입력부는 이미지를 획득하기 위한 사용자 입력 및 애플리케이션을 실행하기 위한 사용자 입력 등을 수신할 수 있다. 또한, 사용자 입력부는 디스플레이된 적어도 하나의 그래픽 사용자 인터페이스 중 하나의 그래픽 사용자 인터페이스를 선택하기 위한 사용자의 입력을 수신할 수 있다.

통신부는, 전자 장치(100)가 다른 장치(미도시) 및 서버와 통신을 하게 하는 하나 이상의 구성요소를 포함할 수 있다.

예를 들어, 통신부는 블루투스 통신부, BLE(Bluetooth Low Energy) 통신부, 근거리 무선 통신부(Near Field Communication unit), WLAN(와이파이) 통신부, 지그비(Zigbee) 통신부, 적외선(IrDA, infrared Data Association) 통신부, WFD(Wi-Fi Direct) 통신부, UWB(ultra wideband) 통신부, Ant+ 통신부 등을 포함할 수 있으나, 통신하는 방식은 예시일 뿐, 본 개시의 기술적 사상을 한정하지 않는다.

도 3을 참조하면, 일 실시예에 따라, 제어부(130)는 훈련 이미지(200)를 획득할 수 있다.

훈련 이미지(200)는 제3 객체(210) 및 제4 객체(220)를 포함할 수 있다. 제3 객체(210) 및 제4 객체(220)는 수평 방향으로 서로 인접하여 배치될 수 있다.

단, 제3 객체(210) 및 제4 객체(220)가 배치된 방향은 예시일 뿐, 본 개시의 기술적 사상은 이에 한정되지 않는다. 예를 들어, 제3 객체(210) 및 제4 객체(220)는 제2 방향으로 서로 인접하여 배치될 수 있다. 즉, 제3 객체(210) 및 제4 객체(220)는 수직 방향으로 서로 인접하여 배치될 수 있다.

도 4를 참조하면, 인공지능 모델은 훈련 이미지(200)를 이용하여, 복수의 객체들(210, 220)에 각각 대응되는 복수의 후보 박스들(211, 212, 213, 221, 222, 223)을 출력할 수 있다.

인공지능 모델은 제3 후보 박스들(211, 212, 213) 및 제4 후보 박스들(221, 222, 223)을 출력할 수 있다. 제3 후보 박스들(211, 212, 213)은 제3 객체(210)에 대응될 수 있다. 제4 후보 박스들(221, 222, 223)은 제4 객체(220)에 대응될 수 있다. 제3 후보 박스들(211, 212, 213) 및 제4 후보 박스들(221, 222, 223)의 개수 및 위치는 예시일 뿐, 본 개시의 기술적 사상은 이에 한정되지 않는다.

인공지능 모델은 제3 후보 박스들(211, 212, 213) 및 제4 후보 박스들(221, 222, 223) 간의 크기 차이가 줄어들도록 하기 위한 손실 함수를 이용하여 훈련될 수 있다. 인공지능 모델은 손실 함수가 작은 값이 출력되도록 훈련될 수 있다. 구체적으로, 손실 함수는 수학식 1과 같이 표현될 수 있다.

[수학식 1]

여기서 L_reg는 기존의 객체 인식 (object detection) 기술의 regression 손실 함수이다. 기존의 객체 인식 기술의 regression 손실 함수는

등이 많이 쓰이지만 이에 한정되지 않는다. K(a,b)는 거리를 나타내는 기함수로, 두 값의 차이의 절대값(|a-b|)이나 제곱항((a-b)²), 가우시안 커널(

) 등이 쓰일 수 있으나 이에 한정되지 않는다. 절대값을 이용한 예제는 [수학식 2]와 같다.

[수학식 2]

여기서, i, j는 객체들이 위치하는 격자 요소(grid element)의 번호이다. 예를 들어, 도 3을 참조하면, 제3 객체(210)가 위치하는 격자 요소의 번호는 1일 수 있고, 제4 객체(220)가 위치하는 격자 요소의 번호는 2일 수 있다.

여기서, j는 i 격자와 인접한 격자 요소의 번호이다. 예를 들어, i는 1일 때, j는 2이다.

여기서, x_i 및 x_j는 각각 소정의 격자 요소에 배치된 객체의 수평 방향에 따른 위치고,

및

는 각각 소정의 격자 요소에 배치된 객체에 대응되는 후보 박스의 수평 방향에 따른 위치다.

여기서, y_i 및 y_j는 각각 소정의 격자 요소에 배치된 객체의 수직 방향에 따른 위치고,

및

는 각각 소정의 격자 요소에 배치된 객체에 대응되는 후보 박스의 수직 방향에 따른 위치다.

여기서, w_i 및 w_j는 각각 소정의 격자 요소에 배치된 객체의 수평 방향에 따른 길이(너비)고,

및

는 각각 소정의 격자 요소에 배치된 객체에 대응되는 후보 박스의 수평 방향에 따른 길이(너비)다.

여기서, h_i 및 h_j 는 각각 소정의 격자 요소에 배치된 객체의 수직 방향에 따른 길이(높이)고,

및

는 각각 소정의 격자 요소에 배치된 객체에 대응되는 후보 박스의 수직 방향에 따른 길이(높이)다.

여기서, λ₁및 λ₂는 하이퍼 파라미터(Hyper parameter)이다. 즉, λ₁및 λ₂는 사용자가 직접 세팅해주는 값이다. 예를 들어, λ₁는 0.0001로 세팅될 수 있다.

여기서, ε는 λ₁항 및 λ₂항의 분모 값이 0이 되지 않도록 하는 상수이다.

수학식 1의 λ₁항을 참고하면, 손실 함수가 작은 값이 출력되기 위하여, i 격자의 후보 박스 및 j 격자의 후보 박스 사이의 수평 방향에 따른 위치 차이가 작을수록, i 격자의 후보 박스와 j 격자의 후보 박스 사이의 수직 방향에 따른 길이 차이가 작아야 한다. 즉, i 격자의 후보 박스 및 j 격자의 후보 박스는 수평 방향으로 가까이 위치할수록, 수직 방향으로의 길이 차이, 즉 후보 박스들의 높이 차이가 작아지도록 훈련된다.

수학식 1의 λ₂항을 참고하면, 손실 함수가 작은 값이 출력되기 위하여, i 격자의 후보 박스 및 j 격자의 후보 박스 사이의 수직 방향에 따른 위치 차이가 작을수록, i 격자의 후보 박스와 j 격자의 후보 박스 사이의 수평 방향에 따른 길이 차이가 작아야 한다. 즉, i 격자의 후보 박스 및 j 격자의 후보 박스는 수직 방향으로 가까이 위치할수록, 수평 방향으로의 길이 차이, 즉 후보 박스들의 너비 차이가 작아지도록 훈련된다.

따라서, 일 실시 예에 따라, 수학식 1에 따른 손실 함수를 이용함으로써, 인접한 후보 박스들이 수평 방향으로 가까이 위치할수록 인접한 후보 박스들 사이의 높이 차이가 작아지도록 인공지능 모델이 훈련되고, 인접한 후보 박스들이 수직 방향으로 가까이 위치할수록 인접한 후보 박스들 사이의 두께 차이가 작아지도록 인공지능 모델이 훈련된다. 즉, 인공지능 모델은 출력되는 인접한 후보 박스들의 크기가 비슷해지도록 훈련될 수 있다.

후보 박스들의 크기가 비슷해지도록 만드는 기술에 대해 수학식 1은 한 가지 예시일 뿐, 본 개시의 기술적 사상은 이에 한정되지 않는다.

따라서, 도 5a를 참조하면, 1번 격자 요소에 제3 객체(210)가 위치할 수 있고, 2번 격자 요소에 제4 객체(220)가 위치할 수 있다. 제3 객체(210) 및 제4 객체(220)는 수평 방향으로 배열될 수 있다. 1번 격자에 제3 객체(210)에 대응되는 복수의 제3 후보 박스들(211a, 212a, 213a)이 생성될 수 있고, 2번 격자에 제4 객체(220)에 대응되는 복수의 제4 후보 박스들(221a, 222a, 223a)이 생성될 수 있다.

제3 후보 박스들(211a, 212a, 213a)의 위치 및 크기는 인접한 2번 격자에 위치한 제4 후보 박스들(221a, 222a, 223a)의 데이터에 기초하여 조정된 것일 수 있다. 제4 후보 박스들(221a, 222a, 223a)의 데이터는 제4 후보 박스들(221a, 222a, 223a)의 위치 및 크기에 대한 데이터일 수 있다.

구체적으로, 인공지능 모델은 손실 함수가 작은 값이 출력되기 위하여, 1번 격자에 위치한 제3 후보 박스들(211a, 212a, 213a) 및 2번 격자에 위치한 제4 후보 박스들(221a, 222a, 223a)은 수평 방향으로 가까이 위치할수록, 제3 후보 박스들(211a, 212a, 213a) 및 제4 후보 박스들(221a, 222a, 223a)의 수직 방향으로의 길이 차이(높이 차이)가 작아지도록 훈련된다. 따라서, 도 4에 도시된 제3 후보 박스들(211, 212, 213)에 비해, 도 5a에 도시된 제3 후보 박스들(221a, 222a, 223a)의 크기는, 수평 방향으로 인접한 제4 후보 박스들(221a, 222a, 223a)의 크기와 유사하도록 조정된다.

마찬가지로, 제4 후보 박스들(221a, 222a, 223a)의 크기는, 수직 방향으로 인접한 제3 후보 박스들(211a, 212a, 213a)의 크기와 각각 유사하도록 조정된다. 이에 따라, 인공지능 모델은 이미지 내 격자 형태로 배치된 객체들을 검출하기에 용이하도록 후보 박스들을 출력할 수 있다.

또한, 도 5b를 참조하면, 3번 격자는 1번 격자와 수직 방향으로 이격되어 위치할 수 있다. 1번 격자에 제3 객체(210)가 위치할 수 있고, 3번 격자에 제5 객체(230)가 위치할 수 있다. 1번 격자에 제3 객체(210)와 대응되는 복수의 제3 후보 박스들(211, 212, 213)이 생성될 수 있고, 3번 격자에 제5 객체(230)와 대응되는 복수의 제5 후보 박스들이 생성될 수 있다.

제3 후보 박스들(211, 212, 213)의 위치 및 크기는 인접한 3번 격자에 위치한 제5 후보 박스들의 데이터에 기초하여 조정될 수 있다. 제5 후보 박스들의 데이터는 제5 후보 박스들의 위치 및 크기에 대한 데이터일 수 있다.

구체적으로, 인공지능 모델은 손실 함수가 작은 값이 출력되기 위하여, 1번 격자에 위치한 제3 후보 박스들(211, 212, 213) 및 3번 격자에 위치한 제5 후보 박스들은 수직 방향으로 가까이 위치할수록, 수평 방향으로의 길이 차이(너비 차이)가 작아지도록 훈련된다. 따라서, 제3 후보 박스들(211a, 212a, 213a)의 크기는, 수직 방향으로 인접한 제5 후보 박스들(231a, 232a, 233a)의 크기와 각각 유사하도록 조정된다.

마찬가지로, 제5 후보 박스들(231a, 232a, 233a)의 크기는, 수직 방향으로 인접한 제3 후보 박스들(211a, 212a, 213a)의 크기와 각각 유사하도록 조정된다. 이에 따라, 인공지능 모델은 이미지 내 격자 형태로 배치된 객체들을 검출하기에 용이하도록 후보 박스들을 출력할 수 있다.

도 6을 참조하면, 단계 S100에서, 인공지능 모델은 훈련 이미지를 획득할 수 있다. 훈련 이미지는 제3 객체 및 제4 객체를 포함할 수 있다. 훈련 이미지 내의 복수의 객체들은 격자 형태로 배치될 수 있다. 여기서, 제3 객체 및 제4 객체는 훈련 이미지 내에 포함되고, 검출하려는 목표 객체를 의미할 수 있다. 예를 들어, 도 3에 도시된 바와 같이, 인공지능 모델은 객체(210, 220)를 포함하는 훈련 이미지(200)를 획득할 수 있다.

단계 S110에서, 인공지능 모델은 훈련 이미지 내의 객체들에 대응되는 제3 후보 박스들 및 제4 후보 박스들을 출력할 수 있다. 인공지능 모델은 훈련 이미지를 이용하여, 제3 후보 박스들 및 제4 후보 박스들을 출력할 수 있다. 제3 후보 박스들은 제3 객체에 대응될 수 있고, 제4 후보 박스들은 제4 객체에 대응될 수 있다. 제3 후보 박스들 및 제4 후보 박스들은 각각 대응되는 제3 객체 및 제4 객체를 검출하기 위해 이용될 수 있다. 예를 들어, 도 4에 도시된 바와 같이, 인공지능 모델은 훈련 이미지(200) 내의 객체들(210, 220)에 대응되는 후보 박스들(211, 212, 213, 221, 222, 223)을 생성할 수 있다.

단계 S120에서, 인공지능 모델은 인접한 후보 박스들 간의 크기 차이가 줄어들도록 하기 위한 손실 함수를 이용하여 훈련될 수 있다. 인공지능 모델은 인접한 제3 후보 박스들 및 제4 후보 박스들 간의 크기 차이가 줄어들도록 하기 위한 손실 함수를 이용하여, 제3 후보 박스들의 크기 및 제4 후보 박스들의 크기를 결정하도록 훈련될 수 있다. 예를 들어, 도 5a에 도시된 바와 같이, 인공지능 모델은 인접한 후보 박스들에 기초하여, 후보 박스들의 크기를 조정할 수 있다. 즉, 인공지능 모델은 제3 후보 박스들(211a, 212a, 213a)에 기초하여, 제4 후보 박스들(221a, 222a, 223a)의 위치 및 크기를 조정할 수 있다. 또한, 인공지능 모델은 제4 후보 박스들(221a, 222a, 223a)에 기초하여, 제3 후보 박스들(211a, 212a, 213a)의 위치 및 크기를 조정할 수 있다.

도 7을 참조하면, 일 실시예에 따라, 이미지(300)는 획득될 수 있다.

획득한 이미지(300)는 제1 객체(310) 및 제2 객체(320)를 포함할 수 있다. 이미지(300) 내의 제1 객체(310) 및 제2 객체(320)는 격자 형태로 배치될 수 있다. 획득한 이미지(300)는 제1 객체(310) 및 제2 객체(320) 외에 복수의 객체를 더 포함할 수 있으나, 설명의 편의상, 제1 객체(310) 및 제2 객체(320)를 이용하여 본 개시의 기술적 사상을 설명한다.

도 8을 참조하면, 일 실시예에 따라, 획득된 이미지(300)는 인공지능 모델에 적용될 수 있다. 상기 인공지능 모델은 도 3, 도 4, 도 5a 및 도 5b를 이용하여 설명된 방법을 통해 학습된 모델일 수 있다. 이에 따라, 인공지능 모델은 제1 객체(310)에 대응되는 제1 후보 박스들(311, 312, 313) 및 제2 객체(320)에 대응되는 제2 후보 박스들(321, 322, 323)을 생성할 수 있다.

제1 후보 박스들(311, 312, 313) 및 제2 후보 박스들(321, 322, 323)은 각각 제1 객체(310) 및 제2 객체(320)를 검출하기 위해 생성될 수 있다. 제1 후보 박스들(311, 312, 313) 및 제2 후보 박스들(321, 322, 323)의 위치 및 크기는 예시적으로 도시되었을 뿐, 본 개시의 기술적 사상은 이에 한정되지 않는다.

제어부(130)는 입력된 이미지(300)를 인공지능 모델에 적용하여, 제1 출력 데이터 및 제2 출력 데이터를 포함하는 출력 데이터를 획득할 수 있다.

제1 출력 데이터는 제1 객체(310)에 대한 데이터일 수 있다. 제1 출력 데이터는 제1 객체(310)에 대응되는 제1 후보 박스들(311, 312, 313)에 관한 데이터를 포함할 수 있다. 예를 들어, 제1 출력 데이터는 제1 후보 박스들(311, 312, 313)의 위치 및 크기에 관한 데이터일 수 있다.

제2 출력 데이터는 제2 객체(320)에 대한 데이터일 수 있다. 제2 출력 데이터는 제2 객체(320)에 대응되는 제2 후보 박스들(321, 322, 323)에 관한 데이터를 포함할 수 있다. 예를 들어, 제2 출력 데이터는 제2 후보 박스들(321, 322, 323)의 위치 및 크기에 관한 데이터일 수 있다.

도 9를 참조하면, 일 실시예에 따라, 제어부(130)는 복수의 객체들(310, 320)에 대응하여 각각 하나의 검출 박스(311a, 321a)를 결정할 수 있다.

복수의 제1 후보 박스들(311, 312, 313)은 제1 객체(310)에 대응하여 위치할 수 있다. 복수의 제1 후보 박스들(311, 312, 313) 중 하나를 선택함으로써, 제1 검출 박스(311a)를 결정할 수 있다. 제1 검출 박스(311a)는 제1 객체(310)에 대응될 수 있다.

복수의 제2 후보 박스들(321, 322, 323)은 제2 객체(320)에 대응하여 위치할 수 있다. 복수의 제2 후보 박스들(321, 322, 323) 중 하나를 선택함으로써, 제2 검출 박스(321a)를 결정할 수 있다. 제2 검출 박스(321a)는 제2 객체(320)에 대응될 수 있다.

일 실시예에 따라, 복수의 후보 박스들 중 하나를 선택하기 위해, NMS(Non-maximum suppression) 알고리즘이 사용될 수 있다. 설명의 편의상, 도 8 및 도 9에 도시된 제1 객체(310) 및 제2 객체(320)를 이용하여 NMS 알고리즘을 설명한다.

구체적으로, 복수의 제1 후보 박스들(311, 312, 313)에 대하여, 신뢰도를 계산할 수 있다. 복수의 제1 후보 박스들(311, 312, 313) 중 하나의 클래스에 대한 가장 높은 신뢰도를 갖고 있는 제1 후보 박스(311)가 선택될 수 있다. 그 후, 선택된 제1 후보 박스(311)를 제외한, 선택되지 않은 복수의 제1 후보 박스(312, 313)를 제거함으로써, 제1 검출 박스(311a)는 결정될 수 있다.

여기서, '클래스'는 입력으로 주어진 이미지 안의 객체의 종류이다. 예를 들어, 도 7, 도 8 및 도 9와 관련된 이미지에서, 클래스는 컨텐츠, 기능 탭일 수 있다. 다른 예로, 동물을 검출하기 위한 이미지에서, 클래스는 강아지, 고양이 등일 수 있다.

여기서, '신뢰도'는 해당 후보 박스 내의 어떤 객체에 대하여, 하나의 클래스에 일치하는 객체일 확률 값이다. 예를 들어, 동물을 검출하기 위한 이미지에서, 하나의 후보 박스 내의 강아지에 대하여, 하나의 클래스(강아지)에 일치하는 객체일 확률 값은 '신뢰도'로 표현될 수 있다.

구체적으로, 신뢰도는 수학식 3과 같이 표현될 수 있다. 참고적으로, 본 개시에서 표현하는 '신뢰도'는 수학식 3의 Adjusted Confidence[i]이다. '신뢰도'는 제1 신뢰도 및 제2 신뢰도를 포함하는 것으로 표현될 수 있다. 제1 신뢰도는 수학식 3의 Confidence[i]로서, 이미지(300) 내의 제1 객체(310)와 복수의 제1 후보 박스들(311, 312, 313)이 대응되는 정도를 나타낼 수 있다. 제2 신뢰도는 수학식 3의 λ₁ 항 및 λ₂ 항으로서, 이미지(300) 내의 복수의 제1 후보 박스들(311, 312, 313)과 복수의 제2 후보 박스들(321, 322, 323)의 관계를 나타낼 수 있다.

[수학식 3]

K(a,b)는 거리를 나타내는 기함수로, 두 값의 차이의 절대값(|a-b|)이나 제곱항((a-b)²), 가우시안 커널(

) 등이 쓰일 수 있으나 이에 한정되지 않는다. 절대값을 이용한 예제는 [수학식 4]와 같다.

[수학식 4]

여기서, i, j는 객체들이 위치하는 격자 요소의 번호이다. 예를 들어, 도 9를 참조하면, 제1 객체(310)가 위치하는 격자 요소의 번호는 1이고, 제2 객체(320)가 위치하는 격자의 번호는 2이다.

여기서, Confidence[i]는 종래 기술의 객체 검출 방법에서 이용되는 신뢰도이다. Confidence[i]는 softmax 함수를 통해 계산한, 후보 박스 내의 객체가 각 클래스에 속할 확률을 의미한다.

여기서, w_i 및 w_j 는 각각 소정의 격자 요소에 배치된 객체의 수평 방향에 따른 길이(너비)고,

및

수학식 3의 λ₁항을 참고하면, 제2 신뢰도는 높은 값을 가지려면, i 격자의 후보 박스와 j 격자의 후보 박스 사이의 수직 방향에 따른 길이 차이, 즉 후보 박스들의 높이 차이가 작아야 한다. 따라서, i 격자의 후보 박스 및 j 격자의 후보 박스는 수직 방향으로의 높이가 비슷할수록, 제2 신뢰도는 높게 계산된다.

수학식 3의 λ₂항을 참고하면, 제2 신뢰도는 높은 값을 가지려면, i 격자의 후보 박스와 j 격자의 후보 박스 사이의 수평 방향에 따른 길이 차이, 즉 후보 박스들의 너비 차이가 작아야 한다. 따라서, i 격자의 후보 박스 및 j 격자의 후보 박스는 수평 방향으로의 너비가 비슷할수록, 제2 신뢰도는 높게 계산된다.

따라서, 일 실시 예에 따라, 수학식 3에 따른 신뢰도를 이용함으로써, 인접한 후보 박스들과 크기가 비슷한 후보 박스는 높은 신뢰도를 가질 수 있다. 구체적으로, 후보 박스는 인접한 후보 박스들과 크기가 비슷할수록, 높은 제2 신뢰도를 가질 수 있다.

이미지 내의 객체에 알맞게 대응되는 후보 박스를 선택하기 위해 신뢰도를 계산하는 방법에 대해 수학식 3은 한 가지 예시일 뿐, 본 개시의 기술적 사상은 이에 한정되지 않는다.

따라서, 훈련된 인공지능 모델에 의해, 제1 출력 데이터는 복수의 제2 후보 박스들(321, 322, 323)의 위치 정보를 고려하여 결정한 복수의 제1 후보 박스들(311, 312, 313)의 위치에 관한 데이터를 포함할 수 있다. 또한, 제2 출력 데이터는 복수의 제1 후보 박스들(311, 312, 313)의 위치 정보를 고려하여 결정한 복수의 제2 후보 박스들(321, 322, 323)의 위치에 관한 데이터를 포함할 수 있다.

선택된 제1 후보 박스(311) 외 다른 제1 후보 박스들(312, 313)에 대하여, 선택된 제1 후보 박스(311)의 IOU(Intersection Over Union)를 계산한다. 여기서, 'IOU'는 비교대상이 되는 두 후보 박스의 합집합의 면적 대비 중첩된 면적의 비율이다. IOU가 임계값보다 크게 계산되는 경우, 계산에 이용된 다른 제1 후보 박스들(312, 313)을 제거한다. 이에 따라, 제1 객체(310)에 대응되는 제1 검출 박스(311a)가 결정된다. 예를 들어, 임계값은 0.5일 수 있으나, 예시일 뿐 본 개시의 기술적 사상은 이에 한정되지 않는다.

동일한 방식으로, 복수의 제2 후보 박스들(321, 322, 323) 중 하나의 클래스(컨텐츠)에 대한 가장 높은 신뢰도를 갖고 있는 하나의 제2 후보 박스(321)가 선택된다. 그 후, 선택된 제2 후보 박스(321) 외 다른 제2 후보 박스들(322, 323)에 대하여, 선택된 제2 후보 박스(321)의 IOU를 계산한다. 그리고, IOU가 임계값보다 크게 계산되는 경우, 계산에 이용된 다른 제2 후보 박스들(322, 323)을 제거한다. 예를 들어, 임계값은 0.5일 수 있으나, 예시일 뿐 본 개시의 기술적 사상은 이에 한정되지 않는다.

제어부(130)는 제1 검출 박스(311a)에 기초하여 이미지(300) 내의 제1 객체(310)를 검출할 수 있고, 제2 검출 박스(321a)에 기초하여, 이미지(300) 내의 제2 객체(320)를 검출할 수 있다.

도 10을 참조하면, 단계 S210에서, 제어부는 제1 객체(310) 및 제2 객체(320)를 포함하는 이미지(300)를 획득할 수 있다. 이미지 내의 제1 객체 및 제2 객체는 격자 형태로 배치될 수 있다. 제1 객체 및 제2 객체는 수평 방향으로 배열될 수 있으나, 이는 예시일 뿐, 본 개시의 기술적 사상은 이에 한정되지 않는다. 예를 들어, 제1 객체 및 제2 객체는 수직 방향으로 배열될 수 있다.

단계 S220에서, 제어부는 제1 출력 데이터 및 제2 출력 데이터를 포함하는 출력 데이터를 획득할 수 있다. 제1 출력 데이터는 제1 객체에 대한 데이터일 수 있다. 제1 출력 데이터는 제1 객체에 대응되는 제1 후보 박스들에 관한 데이터를 포함할 수 있다. 제2 출력 데이터는 제2 객체에 대한 데이터일 수 있다. 제2 출력 데이터는 제2 객체에 대응되는 제2 후보 박스들에 관한 데이터를 포함할 수 있다.

예를 들어, 제1 출력 데이터는 제1 후보 박스들의 위치 및 크기에 관한 데이터일 수 있고, 제2 출력 데이터는 제2 후보 박스들의 위치 및 크기에 관한 데이터일 수 있다.

단계 S230에서, 제어부는 복수의 제1 후보 박스들(311, 312, 313) 중 하나를 선택함으로써, 제1 검출 박스(311a)를 결정할 수 있고, 복수의 제2 후보 박스들(321, 322, 323) 중 하나를 선택함으로써, 제2 검출 박스(321a)를 결정할 수 있다. 제1 검출 박스(311a)는 제1 객체(310)에 대응될 수 있고, 제2 검출 박스(321a)는 제2 객체(320)에 대응될 수 있다.

단계 S240에서, 제어부는 제1 검출 박스 및 제2 검출 박스에 기초하여, 획득한 이미지 내의 제1 객체 및 제2 객체를 검출할 수 있다.

도 15는 일 실시예에 따라, 주어진 이미지 내의 객체를 정확하게 검출하기 위해, 검출 박스를 격자 형태로 재구성하는 방법을 설명하는 순서도이다.

설명의 편의상, 도 7, 도 8, 도 9 및 도 10을 이용하여 설명한 것과 중복되는 것은 간략히 하거나 생략한다.

도 11을 참조하면, 제어부(130)는 격자 형태로 배치된 복수의 객체들(410 내지 450)을 포함하는 이미지(400)를 획득할 수 있다. 예를 들어, 도시된 바와 같이, 이미지(400) 내의 복수의 객체들(410 내지 450)은 수평 방향으로 나란히 배열될 수 있다. 따라서, 이미지(400) 내의 복수의 객체들(410 내지 450)은 격자 형태로 배치된 것으로 판단될 수 있다.

획득한 이미지(400)는 제1 객체(410) 및 제2 객체(420)를 포함할 수 있다. 획득한 이미지(400)는 제1 객체(410) 및 제2 객체(420) 외에 복수의 객체를 더 포함할 수 있으나, 설명의 편의상, 제1 객체(410) 및 제2 객체(420)를 이용하여 본 개시의 기술적 사상을 설명한다.

도 12를 참조하면, 제어부(130)는 복수의 객체(410, 420, 430, 440, 450)에 각각 대응되는 복수의 검출 박스들(411, 421, 431, 441, 451)을 결정할 수 있다. 즉, 제어부(130)는 제1 객체(410)에 대응되는 제1 검출 박스(411) 및 제2 객체(420)에 대응되는 제2 검출 박스(421)를 결정할 수 있다. 제1 검출 박스(411) 및 제2 검출 박스(421)를 결정하는 방법은 도 7, 도 8, 도 9 및 도 10를 이용하여 설명한 방법과 동일할 수 있다.

도 13을 참조하면, 제어부(130)는 하나 이상의 인스트럭션을 실행함으로써, 결정된 제1 검출 박스(411) 및 제2 검출 박스(421)가 그리드 형태로 되도록 조정할 수 있다.

구체적으로, 제1 검출 박스(411) 및 제2 검출 박스(421)는 수평 방향으로 인접하여 배치될 수 있다. 제1 검출 박스(411)의 수직 방향에 따른 높이 및 제2 검출 박스(421)의 수직 방향에 따른 높이가 조정될 수 있다. 제1 검출 박스(411)의 수직 방향에 따른 높이 및 제2 검출 박스(421)의 수직 방향에 따른 높이는 동일하게 조정될 수 있다.

제1 검출 박스(411)의 수직 방향에 따른 높이 및 제2 검출 박스(421)의 수직 방향에 따른 높이가 조정됨에 따라서, 복수의 후보 격자 구조(481, 482)가 형성될 수 있다. 후보 격자 구조(481, 482)는 예시적으로 2개 형성된 것으로 도시되었으나, 후보 격자 구조의 개수는 본 개시의 기술적 사상을 한정하지 않는다.

하나의 후보 격자 구조는 높이가 동일하게 조정된 복수의 검출 박스들을 포함할 수 있다. 예를 들어, 제1 후보 격자 구조(481)는 복수의 검출 박스들(411a, 421a, 431a, 441a, 451a)를 포함할 수 있다. 복수의 검출 박스들(411a, 421a, 431a, 441a, 451a)은 수직 방향으로 동일한 높이로 조정된 검출 박스들일 수 있다. 복수의 검출 박스들(411a, 421a, 431a, 441a, 451a)은 하나의 후보 격자 구조(481)를 구성할 수 있다.

하나의 후보 격자 구조(481) 내의 제1 검출 박스(411a) 및 제2 검출 박스(421a)를 포함하는 복수의 검출 박스들은 그리드 형태로 배열될 수 있다. 후보 격자 구조(481) 내의 복수의 검출 박스들(411a, 421a, 431a, 441a, 451a)은 각각 하나의 객체(410, 420, 430, 440, 450)에 대응될 수 있다.

후보 격자 구조(481)는 그리드 형태로 배치된 복수의 객체들(410, 420, 430, 440, 450)을 검출하기 위하여, 그리드 형태로 배치된 복수의 검출 박스들(411a, 421a, 431a, 441a, 451a)을 포함할 수 있다.

마찬가지로, 또다른 후보 격자 구조(482)는 그리드 형태로 배치된 복수의 객체들(410, 420, 430, 440, 450)을 검출하기 위하여, 그리드 형태로 배치된 복수의 검출 박스들(411b, 421b, 431b, 441b, 451b)을 포함할 수 있다.

물론, 도시되지는 않았지만, 제1 검출 박스(411a)와 수직 방향으로 배치된 제3 검출 박스에 관하여, 제1 검출 박스(411a)의 수평 방향에 따른 너비 및 제3 검출 박스의 수평 방향에 따른 너비가 조정될 수 있다. 제1 검출 박스(411a)의 수평 방향에 따른 너비 및 제3 검출 박스의 수평 방향에 따른 너비는 동일하게 조정될 수 있다.

이에 따라, 제1 검출 박스(411a) 및 제3 검출 박스를 포함하는 복수의 검출 박스들은 그리드 형태로 배열될 수 있다. 제1 검출 박스(411a) 및 제3 검출 박스를 포함하는 복수의 검출 박스들은 하나의 후보 격자 구조를 형성할 수 있다.

도 13 및 14를 참조하면, 제어부(130)는 복수의 후보 격자 구조들(481, 482) 중 하나(481)를 선택함으로써, 최종 격자 구조(481)를 결정할 수 있다. 최종 격자 구조(481)는 조정된 제1 검출 박스(411a) 및 조정된 제2 검출 박스(421a)를 포함할 수 있다.

설명의 편의상, 제1 후보 격자 구조(481) 및 제2 후보 격자 구조(482)를 이용하여, 최종 격자 구조(481)를 결정하는 방법을 설명한다.

복수의 후보 격자 구조들(예를 들어, 481)은 각각 하나의 객체(410, 420, 430, 440, 450)에 대응되는 복수의 검출 박스들(411a 내지 451a)을 포함할 수 있다. 하나의 후보 격자 구조 내의 복수의 검출 박스들(411a 내지 451a)은, 대응되는 객체(410, 420, 430, 440, 450) 에 관하여, 하나의 클래스에 대한 제1 신뢰도를 갖는다.

여기서, '제1 신뢰도'는 해당 검출 박스 내의 어떤 객체에 대하여, 하나의 클래스에 일치하는 객체일 확률 값이다. 참고적으로, 본 개시에서 표현하는 '제1 신뢰도'는 수학식 3의 Confidence[i]이다.

제1 후보 격자 구조(481) 내의 복수의 검출 박스들(411a, 421a, 431a, 441a, 451a)에 대하여, 각각 제1 신뢰도가 계산된다. 이 후, 제1 후보 격자 구조(481) 내에 포함된 복수의 검출 박스들(411a, 421a, 431a, 441a, 451a)에 대한 제1 신뢰도의 합이 계산된다.

마찬가지로, 제2 후보 격자 구조(482) 내의 복수의 검출 박스들(411b, 421b, 431b, 441b, 451b)에 대하여, 각각 제1 신뢰도가 계산된다. 이 후, 복수의 검출 박스들(411b, 421b, 431b, 441b, 451b)에 대한 제1 신뢰도의 합이 계산된다.

복수의 후보 격자 구조들(481, 482) 중, 하나의 후보 격자 구조 내의 복수의 검출 박스들에 대한 제1 신뢰도의 합이 가장 높은 후보 격자 구조(481)가 선택될 수 있다. 이에 따라 선택된 후보 격자 구조(481)는 최종 격자 구조(481)로 결정될 수 있다. 즉, 그리드 형태로 배치된 복수의 객체들(410, 420, 430, 440, 450)에 각각 대응하는 복수의 검출 박스들(411a 내지 451a)을 포함하는 최종 격자 구조(481)가 결정될 수 있다.

제어부(130)는 최종 격자 구조(481)에 기초하여 이미지(400) 내의 그리드 형태로 배치된 복수의 객체들(410, 420, 430, 440, 450)을 검출할 수 있다.

설명의 편의상, 도 1 내지 도 14를 이용하여 설명한 것과 중복되는 설명은 간략히 하거나, 생략한다.

도 15를 참조하면, 제어부(130)는 하나 이상의 인스트럭션을 실행함으로써, 적어도 제1 객체(510) 및 제2 객체(520)를 제1 그룹(501)으로 그룹할 수 있다. 이미지(500) 내의 복수의 객체들(510, 520, 530, 570, 580)은 그 특성에 따라 여러 그룹으로 나뉠 수 있다.

예를 들어, 이미지(500) 내의 복수의 객체들(510, 520, 530, 570, 580)은 크기에 따라, 크기가 큰 객체들(510, 520, 530)의 그룹 및 크기가 작은 객체들(570, 580)의 그룹으로 나뉠 수 있다. 다른 예로, 이미지(500) 내의 복수의 객체들(510, 520, 530, 570, 580)은 위치에 따라, 좌측에 수직 방향으로 배열된 객체들(예를 들어, 아이콘; 570, 580)의 그룹 및 우측에 복수의 행으로 배열된 객체들(예를 들어, 콘텐츠; 510, 520, 530)의 그룹으로 나뉠 수 있다.

도 16 및 도 17을 참조하면, 이미지(500) 내의 복수의 객체들(510, 520, 530, 570, 580)의 그룹을 분류하기 위하여, 제어부(130)는 예를 들어, 슬라이딩 윈도우(Sliding Window) 방식을 이용할 수 있다. 그룹을 분류하는 방식은 예시일 뿐, 본 개시의 기술적 사상은 이에 한정되지 않는다.

예를 들어, 제1 객체(510)에 대응되는 윈도우(511)가 선택될 수 있다. 제1 객체(510)에 대응되는 후보 박스들 중 하나를 선택함으로써, 하나의 클래스에 대한 가장 높은 신뢰도를 갖고 있는 윈도우(511)가 선택될 수 있다.

선택된 윈도우(511)를 슬라이딩(Sliding)하여, 제1 객체(510)가 아닌 다른 객체들(520, 530, 570, 580)은 윈도우(511)로부터 슬라이딩된 위치의 윈도우(511a, 511b, 511c)와 대응될 수 있다.

예를 들어, 제1 방향(x)으로 제1 객체(510)에 인접하는 제2 객체(520)가 윈도우(511a)와 대응되도록 위치되어 있을 수 있다. 제어부(130)는 윈도우(511a) 내의 제2 객체(520)에 대하여, 하나의 클래스에 일치하는 제2 객체일 확률 값인, 제2 객체(520)에 대한 제1 신뢰도를 계산할 수 있다.

또한, 제2 방향(y)으로 제1 객체(510)에 인접하는 제3 객체(530)가 윈도우(511b)와 대응되도록 위치되어 있을 수 있다. 제어부(130)는 윈도우(511b) 내의 제3 객체(530)에 대하여, 하나의 클래스에 일치하는 제3 객체의 확률 값인, 제3 객체(530)에 대한 제1 신뢰도를 계산할 수 있다.

또한, 제3 방향(-x)으로 제1 객체(510)에 인접하는 제7 객체(570)가 윈도우(511c)와 대응되도록 위치되어 있을 수 있다. 제어부(130)는 윈도우(511c) 내의 제7 객체(570)에 대하여, 하나의 클래스에 일치하는 제7 객체의 확률 값인, 제7 객체(570)에 대한 제1 신뢰도를 계산할 수 있다.

이 때, 제7 객체(570)는 제1 객체(510)를 기반으로 형성한 윈도우(511c)와 잘 매칭되지 않을 수 있다. 예를 들어, 제1 객체(510)의 크기 및 제7 객체(570)의 크기가 다르므로, 윈도우(511c) 내에 제7 객체(570)가 매칭되지 않을 수 있다. 이에 따라, 제7 객체(570)에 대한 제1 신뢰도는 낮은 값을 가질 수 있다.

반대로, 제2 객체(520) 및 제3 객체(530)는 제1 객체(510)를 기반으로 형성한 윈도우(511)와 잘 매칭될 수 있다. 예를 들어, 제1 객체(510)의 크기는, 제2 객체(520) 및 제3 객체(530)의 크기와 유사하므로, 윈도우(511b, 511c) 내에 제2 객체(520) 및 제3 객체(530)가 잘 매칭될 수 있다. 이에 따라, 제2 객체(520) 및 제3 객체(530)에 대한 제1 신뢰도는 높은 값을 가질 수 있다.

제2 객체(520) 및 제3 객체(530)는 제1 객체(510)와 유사한 특성을 갖는 것으로 판단될 수 있다. 이와 같은 방식을 이용하여, 도 17에 도시된 바와 같이, 제1 객체(510)와 유사한 특성을 갖는 객체들(510, 520, 530, 540, 550, 560)은 분류될 수 있다. 예를 들어, 제1 객체(510)와 크기가 유사한 객체들(520, 530, 540)은 분류될 수 있다.

도 18을 참조하면, 유사한 특성을 갖는 객체들은 그룹화될 수 있다.

이미지(500) 내의 복수의 객체들(510 내지 580)은 복수의 그룹(501, 502)으로 그룹화될 수 있다. 예를 들어, 제1 객체(510)와 유사한 특성을 갖는 객체들(520, 530, 540, 550, 560)은 제1 그룹(501)으로 그룹화될 수 있고, 제1 객체(510)와 비유사한 특성을 갖는 객체들(570, 580)은 제1 그룹(502)으로 그룹화될 수 없다.

도시되지는 않았지만, 제1 그룹(501)을 그룹화하는 프로세스와 마찬가지로, 제7 객체(570)에 대응되는 윈도우가 선택될 수 있다. 제7 객체(570)에 대응되는 윈도우를 슬라이딩하여, 제7 객체(570)가 아닌 다른 객체들(510 내지 580 등)은 선택된 윈도우와 대응될 수 있다. 이에 따라, 제7 객체(570)와 유사한 특성을 갖는 객체들(580 등)은 분류될 수 있다. 제7 객체(570)와 유사한 특성을 갖는 객체들(580 등)은 제2 그룹(502)으로 그룹화될 수 있다.

도 19를 참조하면, 각 그룹 내의 객체들에 관하여, 최종 격자 구조가 결정될 수 있다.

예를 들어, 제1 그룹(501) 내의 제1 객체(510)에 대응하여 복수의 제1 후보 박스가 형성될 수 있고, 제1 그룹(501) 내의 제2 객체(520)에 대응하여 복수의 제2 후보 박스가 형성될 수 있다. 복수의 제1 후보 박스들 중 하나를 선택함으로써 제1 검출 박스를 형성할 수 있고, 복수의 제2 후보 박스들 중 하나를 선택함으로써 제2 검출 박스를 형성할 수 있다. 그리고, 제1 그룹(501) 내의 제1 객체(510)에 대응되는 제1 검출 박스(512) 및 제1 그룹(501) 내의 제2 객체(520)에 대응되는 제2 검출 박스(522)를 조정함으로써, 복수의 후보 격자 구조들이 형성될 수 있다. 복수의 후보 격자 구조들 중 하나를 선택함으로써, 최종 격자 구조가 결정될 수 있다.

각 그룹 내의 객체들에 관하여, 최종 격자 구조가 결정되는 방법은 도 7 내지 도 14를 이용하여 설명한 방법과 동일할 수 있다.

제어부(130)는 하나 이상의 인스트럭션을 실행함으로써, 제1 그룹(501) 내의 제1 객체(510)에 대응되는 제1 검출 박스(512) 및 제1 그룹(501) 내의 제2 객체(520)에 대응되는 제2 검출 박스(522)를 조정하여 복수의 후보 격자 구조를 형성할 수 있고, 복수의 후보 격자 구조들 중 하나를 선택함으로써, 최종 격자 구조를 결정할 수 있다.

기기로 읽을 수 있는 저장매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, '비일시적 저장매체'는 실재(tangible)하는 장치이고, 신호(signal)(예: 전자기파)를 포함하지 않는다는 것을 의미할 뿐이며, 이 용어는 데이터가 저장매체에 반영구적으로 저장되는 경우와 임시적으로 저장되는 경우를 구분하지 않는다. 예로, '비일시적 저장매체'는 데이터가 임시적으로 저장되는 버퍼를 포함할 수 있다.

일 실시예에 따르면, 본 문서에 개시된 다양한 실시예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory (CD-ROM))의 형태로 배포되거나, 또는 어플리케이션 스토어를 통해 또는 두개의 사용자 장치들(예: 스마트폰들) 간에 직접, 온라인으로 배포(예: 다운로드 또는 업로드)될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품(예: 다운로더블 앱(downloadable app))의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 기기로 읽을 수 있는 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.

이상에서 실시예들에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속한다.

Claims

목표 객체를 검출하기 위한 전자 장치에 있어서,

디스플레이;

하나 이상의 인스트럭션을 저장하는 메모리; 및

상기 메모리에 저장된 상기 하나 이상의 인스트럭션을 실행하는 프로세서를 포함하고, 상기 프로세서는, 상기 하나 이상의 인스트럭션을 실행함으로써,

제1 객체 및 제2 객체를 포함하는 이미지를 인공지능 모델에 적용하여, 상기 제1 객체에 대한 제1 출력 데이터 및 상기 제2 객체에 대한 제2 출력 데이터를 포함하는 출력 데이터를 획득하되,

상기 제1 객체에 대한 제1 출력 데이터는 상기 제1 객체에 대응되는 복수의 제1 후보 박스들에 관한 데이터를 포함하고,

상기 제2 객체에 대한 제2 출력 데이터는 상기 제2 객체에 대응되는 복수의 제2 후보 박스들에 관한 데이터를 포함하고,

상기 복수의 제1 후보 박스들 중 하나를 선택함으로써 상기 제1 객체에 대응되는 제1 검출 박스를 결정하고,

상기 복수의 제2 후보 박스들 중 하나를 선택함으로써 상기 제2 객체에 대응되는 제2 검출 박스를 결정하고,

상기 제1 검출 박스는 상기 이미지 내에서 상기 제1 객체를 검출하기 위해 이용되고, 상기 제2 검출 박스는 상기 이미지 내에서 상기 제2 객체를 검출하기 위해 이용되고,

상기 인공지능 모델은,

제3 객체 및 상기 제3 객체와 인접하여 배치되는 제4 객체를 포함하는 훈련 이미지를 획득하고,

상기 훈련 이미지를 이용하여, 상기 제3 객체에 대응되는 복수의 제3 후보 박스들 및 상기 제4 객체에 대응되는 복수의 제4 후보 박스들을 출력하고,

상기 복수의 제3 후보 박스들 및 상기 복수의 제4 후보 박스들 간의 크기 차이가 줄어들도록 하기 위한 손실 함수를 이용하여 상기 복수의 제3 후보 박스들의 크기 및 상기 복수의 제4 후보 박스들의 크기를 결정하도록 훈련되는 것인, 전자 장치.
제1항에 있어서,

상기 훈련된 인공지능 모델에 의해, 제1 출력 데이터는 상기 복수의 제2 후보 박스들의 위치 정보를 고려하여 결정한 상기 복수의 제1 후보 박스들의 위치에 관한 데이터를 포함하는 것인, 전자 장치.
제1항에 있어서,

상기 제1 검출 박스는 제1 신뢰도 및 제2 신뢰도에 기초하여, 상기 복수의 제1 후보 박스들 중 하나를 선택함으로써 결정되고,

상기 제1 신뢰도는 상기 이미지 내의 상기 제1 객체와 상기 복수의 제1 후보 박스들이 대응되는 정도를 나타내고,

상기 제2 신뢰도는 상기 이미지 내의 상기 복수의 제1 후보 박스들과 상기 복수의 제2 후보 박스들의 관계를 나타내는 것인, 전자 장치.
제3항에 있어서,

상기 제2 신뢰도는,

상기 제2 후보 박스의 제1 방향에 따른 길이와 상기 제1 후보 박스의 상기 제1 방향에 따른 길이의 차이가 작을수록 크고,

상기 제2 후보 박스의 상기 제1 방향과 다른 제2 방향에 따른 길이와 상기 제1 후보 박스의 상기 제2 방향에 따른 길이의 차이가 작을수록 큰 전자 장치.
제1항에 있어서,

상기 프로세서는, 상기 하나 이상의 인스트럭션을 실행함으로써,

상기 제1 검출 박스 및 상기 제2 검출 박스를 결정한 후, 상기 제1 검출 박스 및 상기 제2 검출 박스가 그리드 형태로 되도록 조정하여 복수의 후보 격자 구조들을 형성하고,

상기 복수의 후보 격자 구조들 중 하나를 선택함으로써, 상기 조정된 제1 검출 박스 및 상기 조정된 제2 검출 박스를 포함하는 최종 격자 구조를 결정하는, 전자 장치.
제5항에 있어서,

상기 프로세서는, 상기 하나 이상의 인스트럭션을 실행함으로써,

적어도 상기 제1 객체 및 상기 제2 객체를 제1 그룹으로 그룹화하고,

상기 제1 그룹 내의 상기 제1 객체에 대응되는 제1 검출 박스 및 상기 제1 그룹 내의 상기 제2 객체에 대응되는 제2 검출 박스를 조정하여 상기 복수의 후보 격자 구조들을 형성하는 것인, 전자 장치.
제1항에 있어서,

상기 제3 객체 및 상기 제4 객체는 제1 방향으로 인접하여 배치되고,

상기 인공지능 모델은,

상기 복수의 제3 후보 박스 중 하나의 제1 방향에 따른 위치와 상기 복수의 제4 후보 박스 중 하나의 상기 제1 방향에 따른 위치가 가까울수록,

상기 복수의 제3 후보 박스 중 하나의 상기 제1 방향과 다른 제2 방향에 따른 길이와, 상기 복수의 제4 후보 박스 중 하나의 상기 제2 방향에 따른 길이의 차이는 작아지도록 훈련하는 것인, 전자 장치.
제1 객체 및 제2 객체를 포함하는 이미지를 인공지능 모델에 적용하여, 상기 제1 객체에 대한 제1 출력 데이터 및 상기 제2 객체에 대한 제2 출력 데이터를 포함하는 출력 데이터를 획득하되,

상기 제1 객체에 대한 제1 출력 데이터는 상기 제1 객체에 대응되는 복수의 제1 후보 박스들에 관한 데이터를 포함하고,

상기 제2 객체에 대한 제2 출력 데이터는 상기 제2 객체에 대응되는 복수의 제2 후보 박스들에 관한 데이터를 포함하는 것인, 단계;

상기 복수의 제1 후보 박스들 중 하나를 선택함으로써 상기 제1 객체에 대응되는 제1 검출 박스를 결정하는 단계; 및

상기 복수의 제2 후보 박스들 중 하나를 선택함으로써 상기 제2 객체에 대응되는 제2 검출 박스를 결정하는 단계를 포함하고,

상기 제1 검출 박스는 상기 이미지 내에서 상기 제1 객체를 검출하기 위해 이용되고, 상기 제2 검출 박스는 상기 이미지 내에서 상기 제2 객체를 검출하기 위해 이용되고,

상기 인공지능 모델은,

제3 객체 및 상기 제3 객체와 인접하여 배치되는 제4 객체를 포함하는 훈련 이미지를 획득하고,

상기 훈련 이미지를 이용하여, 상기 제3 객체에 대응되는 복수의 제3 후보 박스들 및 상기 제4 객체에 대응되는 복수의 제4 후보 박스들을 출력하고,

상기 제3 후보 박스들 및 상기 제4 후보 박스들 간의 크기 차이가 줄어들도록 하기 위한 손실 함수를 이용하여 상기 제3 후보 박스들의 크기 및 상기 제4 후보 박스들의 크기를 결정하도록 훈련되는 것인, 목표 객체를 검출하는 방법.
제8항에 있어서,

상기 훈련된 인공지능 모델에 의해, 제1 출력 데이터는 상기 복수의 제2 후보 박스들의 위치 정보를 고려하여 결정한 상기 복수의 제1 후보 박스들의 위치에 관한 데이터를 포함하는 것인, 방법.
제8항에 있어서,

상기 제1 검출 박스를 결정하는 단계는,

상기 복수의 제1 후보 박스들에 대하여, 제1 신뢰도 및 제2 신뢰도를 계산하되,

상기 제1 신뢰도는 상기 이미지 내의 상기 제1 객체와 상기 복수의 제1 후보 박스들이 대응되는 정도를 나타내고,

상기 제2 신뢰도는 상기 이미지 내 상기 복수의 제1 후보 박스들과 상기 복수의 제2 후보 박스들의 관계를 나타내는 것인, 단계;

상기 복수의 제1 후보 박스들 중, 상기 제1 신뢰도 및 상기 제2 신뢰도의 합이 가장 높은 제1 후보 박스를 선택하는 단계; 및

상기 선택된 제1 후보 박스를 제외한, 선택되지 않은 복수의 제1 후보 박스를 제거하는 단계를 포함하는, 방법.
제10항에 있어서,

상기 제2 신뢰도는,

상기 제2 후보 박스의 제1 방향에 따른 길이와 상기 제1 후보 박스의 상기 제1 방향에 따른 길이의 차이가 작을수록 크고,

상기 제2 후보 박스의 상기 제1 방향과 다른 제2 방향에 따른 길이와 상기 제1 후보 박스의 상기 제2 방향에 따른 길이의 차이가 작을수록 큰 방법.
제10항에 있어서,

상기 제1 검출 박스 및 상기 제2 검출 박스를 결정한 후, 상기 제1 검출 박스 및 상기 제2 검출 박스가 그리드 형태로 되도록 조정하여 복수의 후보 격자 구조들을 형성하는 단계; 및

상기 복수의 후보 격자 구조들 중 하나를 선택함으로써, 상기 조정된 제1 검출 박스 및 상기 조정된 제2 검출 박스를 포함하는 최종 격자 구조를 결정하는 단계를 더 포함하는 방법.
제12항에 있어서,

상기 복수의 후보 격자 구조들을 형성하는 단계는,

적어도 상기 제1 객체 및 상기 제2 객체를 제1 그룹으로 그룹화하는 단계를 포함하고,

제1 그룹 내의 상기 제1 객체에 대응되는 제1 검출 박스 및 상기 제1 그룹 내의 상기 제2 객체에 대응되는 제2 검출 박스를 조정하여 상기 복수의 후보 격자 구조들을 형성하는 것인, 방법.
제8항에 있어서,

상기 제3 객체 및 상기 제4 객체는 제1 방향으로 인접하여 배치되고,

상기 인공지능 모델은 상기 복수의 제3 후보 박스 중 하나의 제1 방향에 따른 위치와 상기 복수의 제4 후보 박스 중 하나의 상기 제1 방향에 따른 위치가 가까울수록,

상기 복수의 제3 후보 박스 중 하나의 상기 제1 방향과 다른 제2 방향에 따른 길이와, 상기 복수의 제4 후보 박스 중 하나의 상기 제2 방향에 따른 길이의 차이는 작아지도록 훈련하는 것인, 방법.
제 8항 내지 제 14항 중 어느 한 항의 방법을 구현하기 위한 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록 매체.