KR20220079426A

KR20220079426A - 동적 fov를 이용한 객체 추적 방법 및 그 장치

Info

Publication number: KR20220079426A
Application number: KR1020210136809A
Authority: KR
Inventors: 징타오 쉬; 이웨이 천; 펑 치우; 유병인; 박창범; 이현정; 한재준; 창 왕; 자첸 유
Original assignee: 삼성전자주식회사
Priority date: 2020-12-04
Filing date: 2021-10-14
Publication date: 2022-06-13
Also published as: CN114596516A

Abstract

동적 FOV를 이용한 객체 추적 방법 및 그 장치가 개시된다. 일 실시예에 따르면, 객체 추적 방법은 제1 시야(field of view, FOV)로 제1 이미지 프레임에 관한 타겟 추적을 수행하여 제1 타겟 추적 상태를 결정하고, 제1 시야 및 제1 타겟 추적 상태에 기초하여 제2 시야를 결정하고, 제2 시야로 제2 이미지 프레임에 관한 타겟 추적을 수행하여 제2 타겟 추적 결과를 생성하는 단계들을 포함한다.

Description

동적 FOV를 이용한 객체 추적 방법 및 그 장치{OBJECT TRACKING METHOD USING DYNAMIC FOV AND APPARATUS THEREOF}

아래 실시예들은 동적 FOV를 이용한 객체 추적 방법 및 그 장치에 관한 것이다.

비주얼 객체 추적 기술(visual object tracking)은 컴퓨터 비전 기술에서 연구 기술 중 하나이다. 시스템은 카메라와 같은 이미지 수집 장비를 통해 이미지 시퀀스를 수집할 수 있다. 사용자는 이미지 시퀀스의 제1 프레임(혹은, 초기 프레임)에서 타겟 객체를 마크할 수 있고, 객체 추적 알고리즘은 이미지 시퀀스의 후속 프레임에서 해당 객체에 대한 지속적인 추적을 수행하여 해당 객체의 위치 정보를 제공할 수 있다. 객체 추적 기술은 제1 프레임의 타겟에 대응하는 템플릿 정보를 추출하고, 후속 비디오 프레임 검색 영역(search region) 내에서 서로 다른 후보 위치와 템플릿 간의 일치 정도를 계산하고, 가장 일치하는 위치를 선택하여 타겟 위치를 결정할 수 있다.

일 실시예에 따르면, 객체 추적 방법은 제1 시야(field of view, FOV)로 제1 이미지 프레임에 관한 타겟 추적을 수행하여 제1 타겟 추적 상태를 결정하는 단계, 제1 시야 및 제1 타겟 추적 상태에 기초하여 제2 시야를 결정하는 단계, 및 제2 시야로 제2 이미지 프레임에 관한 타겟 추적을 수행하여 제2 타겟 추적 결과를 생성하는 단계를 포함한다.

일 실시예에 따르면, 객체 추적 장치는 프로세서, 및 프로세서에서 실행가능한 명령어들을 포함하는 메모리를 포함하고, 명령어들이 프로세서에서 실행되면, 프로세서는 제1 시야(field of view, FOV)로 제1 이미지 프레임에 관한 타겟 추적을 수행하여 제1 타겟 추적 상태를 결정하고, 제1 시야 및 제1 타겟 추적 상태에 기초하여 제2 시야를 결정하고, 제2 시야로 제2 이미지 프레임에 관한 타겟 추적을 수행하여 제2 타겟 추적 결과를 생성한다.

일 실시예에 따르면, 전자 장치는 복수의 참조 시야들로 동작하는 카메라, 및 제1 시야로 제1 이미지 프레임에 관한 타겟 추적을 수행하여 제1 타겟 추적 상태를 결정하고, 제1 시야 및 제1 타겟 추적 상태에 기초하여 제2 시야를 결정하고, 제2 시야로 제2 이미지 프레임에 관한 타겟 추적을 수행하여 제2 타겟 추적 결과를 생성하는 프로세서를 포함하고, 제1 시야는 복수의 참조 시야들 중 제1 참조 시야에 해당하고, 제2 시야는 복수의 참조 시야들 중 제2 참조 시야에 해당한다.

도 1은 일 실시예에 따른 트윈 네트워크(twin network)의 기본 구조도이다.
도 2는 일 실시예에 따른 검색 영역의 생성 프로세스의 예시도이다.
도 3a는 일 실시예에 따른 시야를 벗어난 타겟의 예시도이다.
도 3b는 일 실시예에 따른 시야의 불필요한 확대의 예시도이다.
도 4는 일 실시예에 따른 객체 추적 방법의 플로우 차트다.
도 5는 일 실시예에 따른 비디오에 관한 객체 추적의 플로우 차트다.
도 6a는 일 실시예에 따른 이전 이미지 프레임이 normal FOV를 이용할 때 현재 이미지 프레임에 대응하는 시야를 결정하는 것을 도시한 예시도이다.
도 6b는 일 실시예에 따른 이전 이미지 프레임이 wide FOV를 이용할 때 현재 이미지 프레임에 대응하는 시야를 결정하는 것을 도시한 예시도이다.
도 6c는 일 실시예에 따른 이전 이미지 프레임이 narrow FOV를 이용할 때 현재 이미지 프레임에 대응하는 시야를 결정하는 것을 도시한 예시도이다.
도 7a는 일 실시예에 따른 예측 신뢰도에 기초하여 현재 이미지 프레임에 대응하는 시야를 결정하는 플로우 차트다.
도 7b는 일 실시예에 따른 예측 신뢰도, 타겟 위치 및 타겟 크기에 기초하여 현재 이미지 프레임에 대응하는 시야를 결정하는 플로우 차트다.
도 8은 일 실시예에 따른 트윈 네트워크에 기초한 객체 추적 방법의 예시도이다.
도 9는 일 실시예에 따른 트윈 RPN에 기초한 객체 추적 방법의 예시도이다.
도 10a는 일 실시예에 따른 현재 이미지 프레임이 normal FOV를 이용할 때의 관련성 계산(relevance computation)의 플로우 차트다.
도 10b는 일 실시예에 따른 현재 이미지 프레임이 wide FOV를 이용할 때의 관련성 계산의 플로우 차트다.
도 10c는 일 실시예에 따른 현재 이미지 프레임이 narrow FOV를 이용할 때의 관련성 계산의 플로우 차트다.
도 10d는 일 실시예에 따른 템플릿 특징 커널 감소 프로세스의 예시도이다.
도 10e는 일 실시예에 따른 템플릿 특징 커널 증폭 프로세스의 예시도이다.
도 11a는 일 실시예에 따른 트윈 네트워크에 기초한 객체 추적 방법에서 normal FOV 이용과 wide FOV 이용을 비교한 예시도이다.
도 11b는 일 실시예에 따른 트윈 네트워크에 기초한 객체 추적 방법에서 normal FOV 이용과 narrow FOV 이용을 비교한 예시도이다.
도 12는 일 실시예에 따른 객체 추적 방법을 2개의 카메라를 갖는 스마트폰에 적용한 효과의 예시도이다.
도 13은 일 실시예에 따른 객체 추적 장치의 구조적 블록도이다.
도 14는 일 실시예에 따른 전자 장치의 구조도이다.

실시예들에 대한 특정한 구조적 또는 기능적 설명들은 단지 예시를 위한 목적으로 개시된 것으로서, 다양한 형태로 변경되어 구현될 수 있다. 따라서, 실제 구현되는 형태는 개시된 특정 실시예로만 한정되는 것이 아니며, 본 명세서의 범위는 실시예들로 설명한 기술적 사상에 포함되는 변경, 균등물, 또는 대체물을 포함한다.

제1 또는 제2 등의 용어를 다양한 구성요소들을 설명하는데 이용될 수 있지만, 이런 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 해석되어야 한다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다.

단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 설명된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함으로 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 이용되는 모든 용어들은 해당 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 이용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이하, 실시예들을 첨부된 도면들을 참조하여 상세하게 설명한다. 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조 부호를 부여하고, 이에 대한 중복되는 설명은 생략하기로 한다.

타겟 추적 기술에서 사용자는 초기 비디오 프레임 내 타겟을 바운딩 박스 형태로 마크할 수 있다. 이때, 객체의 비중은 높고 배경의 비중은 낮게 바운딩 박스가 설정될 수 있다. 그런 다음, 알고리즘은 후속 비디오 프레임에서 해당 객체의 위치 정보 및 바운딩 박스를 제공할 수 있다. 타겟 추적 및 표시는 분할 마스크(segmentation mask)의 형태로 제공될 수 있다. 분할 마스크는 타겟을 배경과 구분하여 픽셀 수준에서 미세하게 마킹할 수 있다. 따라서, 알고리즘은 후속 비디오 프레임에서 타겟 객체의 위치 정보 및 분할 마스크를 제공할 수 있다. 마스크 추적은 바운딩 박스 추적에 비해 비디오 객체 분할(video object segmentation)과 많은 유사점이 존재한다. 마스크 추적은 바운딩 박스 추적 기술 외에도 추가적인 분할 분기를 제공하고, 객체 분할 기술을 통합하여 객체의 중심 위치를 출력하고, 객체의 분할 마스크 맵을 출력할 수 있다. 아래에서 바운딩 박스 추적 기술을 통해 실시예들을 설명하지만, 실시예들은 마스크 추적 기술에도 적용될 수 있다.

또한, 타겟 모델링은 트윈 네트워크 기반의 타겟 추적 알고리즘을 통해 유사성 학습으로 변환될 수 있다. 구체적으로, 초기 프레임의 템플릿과 현재 프레임의 후보 영역을 비교하여 유사도가 계산된 뒤, 매칭 값에 따라 타겟 추적 결과가 획득될 수 있다. 도 1은 트윈 네트워크 기반의 유사성 도출 과정을 나타낸다. 도 1을 참조하면, 두 개의 네트워크(110, 120)를 통한 네트워크 연산(예: 컨볼루션, 활성화, 정규화 등)을 거쳐 제1 이미지 블록(101) 및 제2 이미지 블록(102)의 특징 벡터들(103, 104)이 추출될 수 있고, 두 특징 벡터(103, 104)의 내적 연산을 통해 두 이미지 블록(101, 102)의 유사도 점수(105)가 도출될 수 있다.

트윈 네트워크 기반의 타겟 추적 알고리즘이 템플릿 특징 커널 zf와 검색 영역 특징(다른 말로, 검색 특징) xf의 컨볼루션 연산을 계산하여 유사도를 얻을 때, 템플릿의 타겟과 검색 영역의 타겟의 스케일이 서로 매칭되어야 유사도가 의미를 가질 수 있다. 타겟 추적 알고리즘은 도 2와 같이 현재 이미지 프레임(210)으로부터 이전 이미지 프레임(이미지 프레임은 간단히 프레임으로 지칭될 수 있음)에 관해 예측된 타겟 위치(211)를 중심으로 이전 이미지 프레임의 타겟 박스(212)의 크기(예: 타겟에 대응하는 너비와 높이의 곱의 제곱근)의 고정 배수(예: 4배)에 해당하는 영역을 크롭하여 검색 영역(220)을 얻을 수 있다. 두 프레임 사이의 타겟의 변화가 정상적인 물리적 움직임 범위에 속한다면, 이러한 방법으로 구한 검색 영역의 타겟의 스케일은 템플릿의 타겟의 스케일과 일치할 수 있다.

고정된 검색 영역 크기는 고정된 시야(field of view, FOV)로 간주될 수 있다. 이때, 고정된 검색 영역 크기는 다음과 같은 문제를 유발할 수 있다.

(1) 누적 오차: 각 프레임의 검색 영역은 이전 프레임의 정보에서 나오므로, 오차가 발생하면 해당 오차는 차츰 다음 프레임으로 누적되어 결국 타겟 추적 정확도의 저하로 이어질 수 있다.

(2) 견고성 감소: 오차로 인해 실제 타겟 물체가 점차 시야 밖으로 이동하는 경우, 검색 범위의 고정은 실제 타겟 물체를 다시 찾을 확률을 0으로 만들 수 있다. 도 3a에 도시된 것처럼, 이전 프레임의 타겟 정보의 누적 오차로 인해 타겟(301)이 현재 프레임(310)의 검색 영역(312)을 벗어났고, 이에 따라 현재 프레임(310)을 통한 예측의 정확도는 낮아질 수 있다.

(3) 연산력의 낭비: 고정 배수가 이용되는 경우 검색 영역은 이미지 프레임을 벗어날 수 있고, 벗어난 부분은 일정 값(예: 평균 값)으로 채워질 수 있다. 현재 예측이 비교적 확실할 때(높은 신뢰도를 가질 때), 대규모의 패딩(padding)은 연산력 낭비를 초래할 수 있다. 도 3b의 타겟(321)은 장면에서 분명한 특징을 가지므로 예측 신뢰도가 높게 유지될 수 있다. 도 3b의 현재 프레임(320)의 검색 영역(322)과 같이 고정 배수가 이용된다면 넓은 영역을 패딩하는데 연산력 낭비가 발생할 수 있다.

실시예들에 따르면 이러한 문제점이 해소될 수 있다. 다만, 이러한 문제점은 예시에 해당하며, 이러한 문제점에 의해 실시예들의 목적이나 효과는 제한되지 않는다.

도 4는 일 실시예에 따른 객체 추적 방법의 플로우 차트이다. 도 4에 도시된 것처럼, 객체 추적 방법은 다음 단계를 포함할 수 있다.

단계(410)에서, 제1 시야(field of view, FOV)로 제1 이미지 프레임에 관한 타겟 추적을 수행하여 제1 타겟 추적 상태가 결정될 수 있다. 제n 시야는 제n 이미지 프레임에 관한 타겟 추적에 이용되는 시야를 나타낼 수 있다. 제n 타겟 추적 상태는 제n 이미지 프레임에 관한 타겟 추적 결과에 따른 타겟 추적 상태를 나타낼 수 있다. 제n 이미지 프레임에 관한 타겟 추적 결과는 제n 타겟 추적 결과로 지칭될 수 있다.

단계(420)에서, 제1 시야 및 제1 타겟 추적 상태에 기초하여 제2 시야가 결정될 수 있다. 제2 시야로 제2 이미지 프레임에 관한 타겟 추적이 수행될 수 있다. 제1 이미지 프레임과 제2 이미지 프레임은 동일한 이미지 시퀀스에 속할 수 있다. 동일한 시퀀스의 각 이미지 프레임은 순서대로 배열될 수 있고, 제1 이미지 프레임은 제2 이미지 프레임의 이전 이미지 프레임일 수 있다. 아래에서 제2 이미지 프레임이 현재 이미지 프레임에 해당하고, 제1 이미지 프레임이 이전 이미지 프레임에 해당하는 예시가 설명될 수 있다.

타겟 추적 과정에서 먼저 이전 이미지 프레임에 관한 타겟 추적이 수행될 수 있고, 그에 따른 타겟 추적 결과가 획득될 수 있다. 구체적으로, 이전 이미지 프레임에 관한 타겟 추적에 이용되는 시야가 획득되면, 해당 시야를 이용하여 이전 이미지 프레임에 관한 타겟 추적이 수행될 수 있고, 그에 따른 타겟 추적 결과에 따라 타겟 추적 상태가 결정될 수 있다. 이전 이미지 프레임에 관한 타겟 추적에 이용되는 시야 및 그에 따른 타겟 추적 상태에 따라, 현재 이미지 프레임에 관한 타겟 추적에 필요한 시야가 결정될 수 있다.

단계(430)에서, 제2 시야로 제2 이미지 프레임에 관한 타겟 추적을 수행하여 제2 타겟 추적 결과가 생성될 수 있다.

구체적으로, 단계(420)에서 결정된 시야를 이용하여 현재 이미지 프레임에 관한 타겟 추적을 수행하여 제2 타겟 추적 결과가 획득될 수 있다. 현재 이미지 프레임에 관한 타겟 추적 전, 이전 이미지 프레임에 대응하는 시야 및 타겟 추적 상태를 통해 현재 이미지 프레임에 관한 타겟 추적에 이용되는 시야가 결정될 수 있다.

현재 이미지 프레임의 시야는 동적으로 조절될 수 있다. 현재 이미지 프레임에 관한 검색 영역 크기는 이전 이미지 프레임의 검색 영역 크기 및 타겟 추적 상태에 따라 결정될 수 있다. 구체적으로, 이전 이미지 프레임에 관한 타겟 추적 상태가 상대적으로 안정적인 경우, 현재 이미지 프레임에 관한 시야를 적절하게 좁혀서 계산량이 줄어들 수 있다. 이전 이미지 프레임에 관한 타겟 추적 상태가 타겟 손실에 해당하는 경우, 현재 이미지 프레임에 대응하는 시야를 확대하여 타겟을 다시 찾을 가능성 및 타겟 추적의 견고성이 향상될 수 있다. 또한, 동적 조절에 따라 현재 이미지 프레임을 위한 시야가 조절되므로, 누적 오차가 감소되고, 타겟 추적의 정확도가 향상될 수 있다.

실시예들에 따르면 현재 이미지 프레임에 관한 타겟 추적 과정에서 이전 이미지 프레임에 관한 타겟 추적의 시야 및 타겟 추적 상태에 따라 현재 이미지 프레임에 관한 타겟 추적에 이용되는 시야가 동적으로 조절되고, 이를 통해 고정된 시야를 이용함에 따른 누적 오차, 견고성 감소, 및 연산력 낭비 등이 방지될 수 있다.

일 실시예에 따르면, 각 이미지 프레임을 위한 시야는 미리 정해진 참조 시야들로부터 선택될 수 있다. 예를 들어, 참조 시야들은 제1 참조 시야, 제2 참조 시야, 및 제3 참조 시야 중 적어도 둘을 포함할 수 있다. 제1 시야 및/또는 제2 시야는 이 적어도 둘 중 하나일 수 있다. 제2 참조 시야는 제1 참조 시야를 제1 인자(factor)만큼 확대하여 획득될 수 있고, 제3 참조 시야는 제1 참조 시야를 제2 인자만큼 축소하여 획득될 수 있다.

일례로, 제1 참조 시야는 노멀 시야에 해당할 수 있고, 제2 참조 시야 및 제3 참조 시야는 각각 제1 참조 시야를 확대/축소하여 얻은 넓은 시야(wide FOV) 및 좁은 시야(narrow FOV)에 해당할 수 있다. 이때, 확대에 이용되는 제1 인수 및 축소에 이용되는 제2 인수가 실제 필요에 따라 설정될 수 있다. 일 실시예에 따르면, 각 이미지 프레임에 관한 타겟 추적 상태는 참조 시야의 개수와 동일한 개수로 구분될 수 있다. 예를 들어, 참조 시야가 3개인 경우, 타겟 추적 상태도 3가지 상태로 구분될 수 있다.

도 5에 도시된 것처럼, 실시예들에 따른 객체 추적 방법을 이용하여 비디오 시퀀스에 관한 타겟 추적을 수행하는 과정은 다음 단계를 포함할 수 있다.

(1) 비디오 시퀀스의 제1 프레임(예: 초기 프레임 또는 초기 이미지 프레임)을 획득하는 단계(510)

(2) 타겟을 마크하는 사용자 입력을 수신하는 단계(520)

(3) 비디오 시퀀스의 제2 프레임(제1 프레임의 다음 프레임)을 획득하고, 제2 프레임에서 타겟 위치의 예측(즉, 추적)을 시작하는 단계(530)

(4) 노멀 시야(normal FOV)를 이용하여 비디오 시퀀스의 제2 프레임 내의 타겟 위치를 예측하는 단계(540)

(5) 타겟 위치, 예측 신뢰도 등을 포함하는 제2 프레임의 타겟 추적 결과를 생성하는 단계(550)

(6) 제2 프레임의 타겟 추적 결과에 기초하여 제2 프레임의 타겟 추적 상태를 결정하는 단계(560)

(7) 제3 프레임(제2 프레임의 다음 프레임)을 획득하는 단계(570)

(8) 제2 프레임의 타겟 추적 상태에 기초하여 제3 프레임에 관한 동적 시야를 결정하고, 결정된 동적 시야를 이용하여 제3 프레임에 관한 타겟 추적을 수행하는 단계(580)

(9) 제3 프레임의 타겟 추적 결과를 생성하는 단계(590)

이후, 후속 프레임에도 이러한 단계가 반복 수행될 수 있다.

실시예들에 따른 객체 추적 방법에 따르면, 이전 이미지 프레임에 대응하는 시야 및 타겟 추적 상태에 따라 현재 이미지 프레임에 대응하는 시야가 결정될 수 있다. 이때, 이전 이미지 프레임에 대응하는 시야는 이전 이미지 프레임에 관한 타겟 추적 과정 중 이미 결정될 수 한다. 현재 이미지 프레임에 대응하는 시야 결정 시, 이전 이미지 프레임에 대응하는 타겟 추적 상태를 얻는 것이 중요할 수 있다. 이전 이미지 프레임에 대응하는 타겟 추적 상태의 획득 과정은 아래에서 상세히 설명한다.

일 실시예에 따르면, 현재 이미지 프레임의 이전 이미지 프레임에 대응하는 타겟 추적 상태를 결정하는 단계는, 이전 이미지 프레임에 대응하는 타겟 추적 결과를 획득하는 단계, 및 이전 이미지 프레임에 대응하는 타겟 추적 결과에 기초하여 이전 이미지 프레임에 대응하는 타겟 추적 상태를 결정하는 단계를 포함할 수 있다.

이전 이미지 프레임의 타겟 추적이 완료됨에 따라 획득된 타겟 추적 결과에 따라 이전 이미지 프레임에 대응하는 타겟 추적 상태가 결정될 수 있다. 예를 들어, 타겟 추적 결과는 타겟 위치(예: 타겟의 중심 좌표), 타겟 크기(예: 타겟의 너비 및 높이), 및 예측 신뢰도 중 적어도 하나를 포함할 수 있다. 타겟 위치 및 타겟 크기에 따라 타겟에 대응하는 바운딩 박스가 결정될 수 있다. 예측 신뢰도는 타겟 위치와 타겟 크기의 신뢰도를 나타낼 수 있다.

일 실시예에 따르면, 타겟 추적 결과는 대응하는 예측 신뢰도를 포함할 수 있고, 이전 이미지 프레임에 대응하는 타겟 추적 결과에 기초하여 대응하는 타겟 추적 상태를 결정하는 단계는 예측 신뢰도와 미리 설정된 임계 값 간의 비교 결과에 따라 대응하는 타겟 추적 상태를 결정하는 단계를 포함할 수 있다. 이때, 미리 설정된 임계 값은 제1 임계 값 및 제2 임계 값을 포함할 수 있고, 예측 신뢰도가 제1 임계 값보다 큰 경우 타겟 추적 상태는 예측 안정 상태로 결정될 수 있고, 예측 신뢰도가 제2 임계 값보다 작은 경우 타겟 추적 상태는 타겟 손실 상태로 결정될 수 있고, 예측 신뢰도가 제2 임계 값보다 크고 제1 임계 값보다 작은 경우 타겟 추적 상태는 예측 안정과 타겟 손실 사이의 상태로 결정될 수 있다. 예측 안정 상태는 제1 상태로, 타겟 손실 상태는 제2 상태로, 예측 안정과 타겟 손실 사이의 상태는 중간 상태 또는 제3 상태로 나타낼 수 있다.

일 실시예에 따르면, 이전 이미지 프레임에 대응하는 타겟 추적 상태는 예측 신뢰도만 가지고 평가될 수 있다. 예를 들어, 제1 임계 값 및 제2 임계 값이 미리 설정될 수 있다. 이때, 제1 임계 값이 제2 임계 값보다 클 수 있다. 이전 이미지 프레임에 대응하는 예측 신뢰도는 이 임계 값들과 비교될 수 있고, 비교 결과를 바탕으로 타겟 예측 상태가 결정될 수 있다.

예측 신뢰도가 제1 임계 값보다 큰 경우, 타겟 추적 결과 중 타겟 위치와 타겟 크기의 신뢰도가 높을 수 있다. 이는 타겟 추적 결과가 매우 안정적이라는 것을 의미할 수 있다. 따라서, 이 경우 타겟 추적 상태가 예측 안정 상태(또는 타겟 추적 안정 상태)로 결정될 수 있다. 예측 신뢰도가 제2 임계 값보다 작은 경우, 타겟 추적 결과 중 타겟 위치와 타겟 크기의 신뢰도가 낮을 수 있다. 이는 타겟 추적 결과가 불안정하다는 것을 의미할 수 있다. 따라서, 이 경우 타겟 추적 상태가 타겟 손실 상태로 결정될 수 있다. 예측 신뢰도가 제2 임계 값보다 크고 제1 임계 값보다 작은 경우, 타겟 추적 결과 중 타겟 위치와 타겟 크기의 신뢰도는 수용 가능한 수준이라는 것을 의미할 수 있다. 이는 타겟 추적 결과의 안정성이 수용 가능하다는 것을 의미할 수 있다. 이 경우, 타겟 추적 상태는 중간 상태로 결정될 수 있다.

일 실시예에 따르면, 추적 결과는 타겟 위치 및 타겟 크기 중 적어도 하나, 및 예측 신뢰도를 포함할 수 있다. 이전 이미지 프레임에 대응하는 타겟 추적 결과에 기초하여 대응하는 타겟 추적 상태를 결정하는 단계는, 타겟 위치 및 타겟 크기 중 적어도 하나에 기초하여, 이전 이미지 프레임에 대응하는 타겟 상대 변위(target relative displacement) 및 이전 이미지 프레임 중 타겟 크기와 전체 크기 사이의 비율 중 적어도 하나를 획득하는 단계, 및 타겟 상대 변위와 미리 설정된 참조 변위 간의 비교 결과 및 상기 비율과 미리 설정된 참조 비율 간의 비교 결과 중 적어도 하나, 및 예측 신뢰도와 미리 설정된 임계 값 간의 비교 결과에 기초하여, 타겟 추적 상태를 결정하는 단계를 포함할 수 있다. 예측 신뢰도가 제1 임계 값보다 크고 타겟 상대 변위가 참조 변위보다 작은 경우 타겟 추적 상태는 예측 안정 상태로 결정될 수 있고, 예측 신뢰도가 제2 임계 값보다 작고 비율이 참조 비율보다 작은 경우 타겟 추적 상태는 타겟 손실 상태로 결정될 수 있고, 예측 신뢰도가 제2 임계 값보다 크고 제1 임계 값보다 작은 경우 타겟 추적 상태는 중간 상태로 결정될 수 있다.

이때, 예측 신뢰도를 기반으로 타겟 위치 및 타겟 크기를 조합하여 이전 이미지 프레임의 타겟 추적 상태가 평가될 수 있다. 구체적으로, 제1 임계 값 및 제2 임계 값에 기초하여, 참조 변위(타겟 상대 변위를 평가하기 위함) 및 참조 비율(타겟 크기와 전체 크기 간의 비율을 평가하기 위함)이 설정될 수 있다. 그런 다음, 이전 이미지 프레임에 대응하는 예측 신뢰도와 임계 값들 간의 비교 결과, 이전 이미지 프레임에 대응하는 타겟 상대 변위와 참조 변위 간의 비교 결과, 이전 이미지 프레임의 타겟 크기와 전체 크기 사이의 비율과 참조 비율 간의 비교 결과가 도출될 수 있다. 그런 다음, 비교 결과들을 바탕으로 대응하는 타겟 예측 상태가 결정될 수 있다.

여기서, 이전 이미지 프레임에 대응하는 타겟 상대 변위는 더 이전 프레임에서 이전 프레임까지의 타겟의 위치 변화에 대응하는 상대 변위를 의미한다. 예를 들어, 이전 프레임은 T-1 프레임, 더 이전 프레임(다시 말해 이전 프레임의 이전 프레임)은 T-2 프레임으로 나타낼 수 있다. 그런 다음, T-1 프레임과 T-2 프레임에 각각 대응하는 타겟 위치의 차이 값의 절대 값을 계산하고, T-1 프레임과 T-2 프레임에 각각 대응하는 타겟 크기의 평균 값을 계산한 다음, 해당 평균 값에 대한 해당 절대 값의 비율을 제거하여, 대응하는 타겟 상대 변위가 획득될 수 있다.

또한, 예측 신뢰도가 제1 임계 값보다 크고 타겟 상대 변위가 참조 변위보다 작은 경우, 타겟 추적 결과 중 타겟 위치와 타겟 크기의 신뢰도가 높을 수 있다. 이는 타겟 추적 결과가 매우 안정적이라는 것을 의미할 수 있다. 따라서, 이 경우 타겟 추적 상태가 예측 안정 상태(또는 타겟 추적 안정 상태)로 결정될 수 있다. 예측 신뢰도가 제2 임계 값보다 작고 비율이 참조 비율보다 작은 경우, 타겟 추적 결과 중 타겟 위치와 타겟 크기의 신뢰도가 낮을 수 있다. 이는 타겟 추적 결과가 불안정하다는 것을 의미할 수 있다. 따라서, 이 경우 타겟 추적 상태가 타겟 손실 상태로 결정될 수 있다. 예측 신뢰도가 제2 임계 값보다 크고 제1 임계 값보다 작은 경우, 타겟 추적 결과 중 타겟 위치와 타겟 크기의 신뢰도는 수용 가능한 수준이라는 것을 의미할 수 있다. 이는 타겟 추적 결과의 안정성이 수용 가능하다는 것을 의미할 수 있다. 이 경우, 타겟 추적 상태는 중간 상태로 결정될 수 있다. 예측 안정 상태 및 타겟 손실을 결정하는 과정에서, 병렬의 판단 조건이 추가되어, 결정된 타겟 추적 상태 및 후속 타겟 추적의 정확도가 향상될 수 있다.

위와 같은 방법으로 이전 이미지 프레임에 대응하는 타겟 추적 상태가 결정되면, 이를 이전 이미지 프레임에 대응하는 시야와 결합하여 현재 이미지 프레임에 대응하는 시야가 결정될 수 있다. 이하, 해당 과정에 대해 자세히 설명한다.

일 실시예에 따르면, 현재 이미지 프레임에 대응하는 시야 및 대응하는 타겟 추적 상태에 기초하여, 현재 이미지 프레임에 관한 타겟 추적에 이용되는 시야를 결정하는 단계는 다음 단계를 포함할 수 있다.

(1) 이전 이미지 프레임에 대응하는 시야가 제1 참조 시야일 때, 타겟 추적 상태가 타겟 손실 상태인 경우 현재 이미지 프레임에 대응하는 시야를 제2 참조 시야로 결정하고, 타겟 추적 상태가 예측 안정 상태인 경우 현재 이미지 프레임에 대응하는 시야를 제3 참조 시야로 결정하고, 타겟 추적 상태가 중간 상태인 경우, 현재 이미지 프레임에 대응하는 시야를 제1 참조 시야로 결정하는 단계

(2) 이전 이미지 프레임에 대응하는 시야가 제2 참조 시야일 때, 타겟 추적 상태가 타겟 손실 상태인 경우 현재 이미지 프레임에 대응하는 시야를 제2 참조 시야로 결정하고, 타겟 추적 상태가 예측 안정 상태인 경우 현재 이미지 프레임에 대응하는 시야를 제1 참조 시야로 결정하고, 타겟 추적 상태가 중간 상태인 경우 현재 이미지 프레임에 대응하는 시야를 제2 참조 시야로 결정하는 단계

(3) 이전 이미지 프레임에 대응하는 시야가 제3 참조 시야일 때, 타겟 추적 상태가 타겟 손실 상태인 경우 현재 이미지 프레임에 대응하는 시야를 제1 참조 시야로 결정하고, 타겟 추적 상태가 예측 안정 상태인 경우 현재 이미지 프레임에 대응하는 시야를 제3 참조 시야로 결정하고, 타겟 추적 상태가 중간 상태인 경우 현재 이미지 프레임에 대응하는 시야를 제3 참조 시야로 결정하는 단계

현재 이미지 프레임을 프레임 T(시각 T에 해당), 이전 이미지 프레임을 프레임 T-1(시각 T-1에 해당), 제1 참조 시야를 normal FOV, 제2 참조 시야를 wide FOV, 제3 참조 시야를 narrow FOV로 나타낼 수 있다. 그러면, 이미지 프레임 T-1에 대응하는 시야가 normal FOV일 때, 이미지 프레임 T에 대응하는 시야는 도 6a와 같이 결정될 수 있다. 타겟 추적 상태가 타겟 손실 상태, 중간 상태, 또는 예측 안정 상태인지에 따라 이미지 프레임 T에 대응하는 시야가 wide FOV, normal FOV, 또는 narrow FOV로 결정될 수 있다. 이미지 프레임 T-1에 대응하는 시야가 wide FOV인 경우, 이미지 프레임 T에 대응하는 시야는 도 6b와 같이 결정될 수 있고, 프레임 T-1에 대응하는 시야가 좁은 narrow FOV인 경우, 프레임 T에 대응하는 시야는 도 6c와 같이 결정될 수 있다.

도 7a에 도시된 것처럼, 단계(711)에서 프레임 T-1이 획득될 수 있다. 프레임 T-1에 대응하는 시야는 normal FOV일 수 있다. 단계(712)에서 프레임 T-1에 따른 타겟 추적 결과(예: 타겟 위치, 타겟 크기, 예측 신뢰도)가 결정되고, 단계(713)에서 예측 신뢰도가 체크(예: 예측 신뢰도와 임계 값 간의 비교)될 수 있다. 예측 신뢰도와 임계 값 간의 비교 결과에 따라 타겟 추적 상태가 결정될 수 있다. 프레임 T-1에 따른 예측 신뢰도가 임계 값 TH_2보다 작은 경우, 단계(714)에서 타겟 추적 상태는 타겟 손실 상태로 결정될 수 있다. 이 경우, 단계(715)에서 획득된 다음 프레임(프레임 T)에 대응하는 시야가 wide FOV로 결정될 수 있다. 프레임 T-1에 따른 예측 신뢰도가 임계 값 TH_1 보다 큰 경우, 단계(718)에서 타겟 추적 상태는 예측 안정 상태로 결정될 수 있다. 이 경우, 단계(719)에서 획득된 다음 프레임(프레임 T)에 대응하는 시야가 narrow FOV로 결정될 수 있다. 이후에, 단계들(716, 717, 720, 721)에서 단계들(712, 713)의 대응 동작이 반복 수행될 수 있다. 하이퍼 파리미터 TH_1 및 TH_2는 미리 설정된 임계 값에 해당할 수 있다. 예를 들어, TH_1=0.95, TH_2=0.55일 수 있다. 예측 신뢰도가 TH_2보다 크고 TH_1보다 작은 경우, 타겟 추적 상태는 중간 상태로 결정될 수 있고, 단계(722)에서 획득된 다음 프레임(프레임 T)에 관해 기존의 시야(normal FOV)가 유지될 수 있다.

도 7b에 도시된 것처럼, 단계(751)에서 프레임 T-1이 획득되고, 단계(752)에서 타겟 추적 결과(예: 타겟 위치, 타겟 크기, 예측 신뢰도)가 생성될 수 있다. 프레임 T-1에 대응하는 시야는 normal FOV일 수 있다. 단계(753)에서 타겟 추적 결과에 따른 예측 신뢰도, 비율, 및 타겟 상대 변위가 체크될 수 있다. 프레임 T-1에 따른 예측 신뢰도가 임계 값 THC_2보다 작고 타겟 크기와 전체 크기의 비율이 참조 비율 THR보다 작은 경우, 타겟 예측의 불확실성이 크고 타겟이 손실된 것으로 간주될 수 있다. FOV 확대 시 타겟이 영역 내에 존재할 수 있다는 가정 하에, 다음 프레임(즉, 프레임 T)에 대응하는 시야가 wide FOV로 결정될 수 있다. 프레임 T-1에 따른 예측 신뢰도가 임계 값 THC_1보다 크고 타겟 상대 변위가 참조 변위 THD보다 작은 경우, 타겟 예측이 안정적인 것으로 간주될 수 있다. FOV 축소 후에서 타겟이 영역 내에 존재할 수 있다는 가정 하에, 다음 프레임(즉, 프레임 T)에 대응하는 시야가 narrow FOV로 결정될 수 있다. 하이퍼 파라미터 THC_1, THC_2, THR, 및 THD는 미리 설정된 임계 값, 참조 비율, 및 참조 변위에 해당할 수 있다. 예를 들어, THC_1=0.55, THC_2=0.95, THR=0.2, THD=0.5일 수 있다. 타겟 추적 결과가 중간 상태인 경우(예: 예측 신뢰도는 TH_2보다 크고 TH_1보다 작고, 타겟 상대 변위는 THD보다 크고, 타겟 크기와 전체 크기의 비율이 THR보다 큰 경우), 기존의 시야(normal FOV)가 유지될 수 있다. 그 밖에, 도 7a의 설명이 7b에 적용될 수 있다.

일 실시예에 따르면, 현재 이미지 프레임에 대응하는 시야에 기초하여 현재 이미지 프레임에 대응하는 타겟 추적 결과를 생성하는 단계(예: 단계(430))는 현재 이미지 프레임이 속하는 이미지 시퀀스 중 초기 이미지 프레임에 기초하여 참조 템플릿 특징을 설정하는 단계, 현재 이미지 프레임에 대응하는 시야(예: 제2 시야) 및 이전 이미지 프레임(예: 제1 이미지 프레임)의 타겟 위치(예: 제1 타겟 추적 결과에 따른 타겟 위치)에 기초하여, 현재 이미지 프레임(예: 제2 이미지 프레임)의 검색 영역을 결정하고, 검색 영역으로부터 검색 특징을 획득하는 단계, 및 참조 템플릿 특징 및 검색 특징에 기초하여 현재 이미지 프레임에 대응하는 타겟 추적 결과(예: 제2 타겟 추적 결과)를 생성하는 단계를 포함할 수 있다.

구체적으로, 트윈 네트워크를 기반으로 하는 트윈 완전 컨볼루션 네트워크(fully-convolutional network)를 이용하여 타겟 추적이 수행될 수 있다. 예를 들어, 도 8에 도시된 것처럼, 일 실시예에 따른 트윈 풀 컨볼루션 네트워크를 기반으로 타겟 추적 결과를 획득하는 과정은 다음 단계를 포함할 수 있다.

(1) 초기 이미지 프레임에서 사용자가 마크한 타겟 정보에 따라 템플릿(z)을 획득하는 단계(예를 들어, 템플릿(z)의 크기는 127*127*3일 수 있음)

(2) 템플릿(z)을 백본(backbone) 네트워크(810)에 입력하여 템플릿 특징(zf)을 추출하는 단계(예를 들어, 템플릿 특징(zf)의 크기는 6*6*128일 수 있음)

(3) 현재 이미지 프레임에서, 이전 이미지 프레임에 대응하는 타겟 위치를 중심으로 갖고, 실시예들에 따라 결정된 시야를 크기로 갖는, 현재 이미지 프레임에 대응하는 검색 영역(x)을 결정하는 단계(예를 들어, 검색 영역(x)의 크기는 255*255*3일 수 있음)

(4) 검색 영역(x)을 백본 네트워크(820)에 입력하여 검색 영역(x)에 대응하는 검색 특징(xf)을 획득하는 단계(예를 들어, 검색 특징(xf)의 크기는 22*22*128일 수 있음)

(5) 서로 다른 크기의 템플릿 특징(zf)과 검색 특징(xf)에 관한 완전 컨볼루션 연산(830), 다시 말해 포인트 곱 합산 연산(point product summation operation)을 수행하여, 템플릿 특징(zf)과 검색 특징(xf)의 크기와 관련된 유사도 맵(840)(예: 유사도 히트 맵(heat map), 유사도 스코어 맵(score map))를 획득하는 단계(예를 들어, 유사도 맵의 크기는 17*17*1일 수 있음)

(6) 유사도 맵(840)에서 유사도 값이 가장 큰 위치를 찾아 원래 검색 영역의 위치, 다시 말해 현재 이미지 프레임의 타겟 위치에 다시 매핑하는 단계

트윈 완전 컨볼루션 네트워크 뒤에 영역 제안 네트워크(region proposal network, RPN)를 결합하여 트윈 RPN이 도출될 수 있다. RPN이 트윈 네트워크와 결합된 후, 템플릿 특징(zf)과 검색 특징(xf) 상의 각 위치에 대응되는 관련성(correlation)이 매번 계산될 때, k 개의 앵커(anchor)가 생성될 수 있다. 이 k개의 앵커는 k개의 후보 박스(도 9의 RPN의 복수의 박스)를 나타낼 수 있다. 각 후보 박스는 이 위치를 중앙에 갖지만 서로 다른 크기(예: 다른 너비 및/또는 다른 높이)를 가질 수 있다. 도 9에 도시된 것처럼, 제1 프레임의 템플릿 특징(zf)과 현재 프레임의 검색 특징(xf) 간의 컨볼루션 연산(901)이 수행되어 유사도 맵(910)이 생성될 수 있다. 예를 들어, 템플릿 특징(zf)의 크기는 4*4, 검색 특징(xf)의 크기는 20*20, 유사도 맵(910)의 크기는 17*17일 수 있다. 각 위치에 k개의 앵커가 생성되도록 규정하면, 유사도 맵(910)에 총 17*17*k 개의 앵커가 생성될 수 있다. 트윈 RPN은 분류 분기 및 회귀 분기의 두 가지 분기를 포함할 수 있다. 분류 분기는 예측 타겟의 양성 샘플과 음성 샘플의 확률 값을 생성할 수 있고, 회귀 분기는 예측 박스의 중심 좌표(x, y)와 크기(w, h)를 생성할 수 있다. 분류 분기 및 회귀 분기를 통해 현재 프레임에 관한 타겟 추적 결과(920)가 생성될 수 있다.

일 실시예에 따르면, 참조 템플릿 특징 및 검색 특징에 기초하여 현재 이미지 프레임에 대응하는 타겟 추적 결과(예: 제2 타겟 추적 결과)를 생성하는 단계는, 현재 이미지 프레임에 대응하는 시야(예: 제2 시야)가 제2 참조 시야 또는 제3 참조 시야인 경우, 참조 템플릿 특징에 관한 스케일링을 수행하여 스케일링된 템플릿 특징을 생성하는 단계, 및 스케일링된 템플릿 특징 및 검색 특징에 기초하여 현재 이미지 프레임에 대응하는 타겟 추적 결과를 생성하는 단계를 포함할 수 있다.

타겟 추적 과정에서 템플릿 특징은 초기 이미지 프레임(예: 이미지 시퀀스의 제1 프레임)에서 추출될 수 있고, 초기 이미지 프레임에 대응하는 시야는 기본적으로 normal FOV로 설정될 수 있다. 후속 이미지 시퀀스 프레임에서 동적 FOV(wide FOV 또는 narrow FOV)가 이용되는 경우, 다른 FOV에서 추출된 특징 스케일을 융합하기 위해 템플릿 특징의 크기가 스케일링될 수 있다. 예를 들어, 다음과 같은 템플릿 특징 커널 리스케일링(rescaling)이 적용될 수 있다. wide FOV가 normal FOV에 비해 r배 확대되면, 템플릿 특징은 원래 크기(normal FOV에서의 크기)의 1/r배 스케일링, 다시 말해 r배 축소될 수 있다. narrow FOV가 normal FOV에 비해 1/r배 축소되면, 템플릿 특징은 원래 크기(normal FOV에서의 크기)의 r배 스케일링, 다시 말해 r배 확대될 수 있다. 상기 방안에서 제1 인자와 제2 인자는 r로 동일한 것으로 가정되었으나, 제1 인자와 제2 인자가 서로 다르게 설정되는 것도 가능하다.

실시예들에 따른 트윈 네트워크 또는 트윈 RPN를 기반으로 하는 타겟 추적 방식은 백본 네트워크의 설정을 변경하지 않을 수 있다. 따라서, 백본 네트워크의 입력 이미지 크기가 유지될 수 있다. 이에 따라, (1) 백본 네트워크를 다시 트레이닝할 필요가 없고, (2) 고정 백본 네트워크의 계산량은 알고리즘 기반 소프트웨어 시스템의 후속 개발에 도움을 줄 수 있고, (3) 다른 모듈의 설정에 영향을 주지 않고 다른 백본 네트워크 구조의 신속한 교체가 가능할 수 있다.

일 실시예에 따르면, 참조 템플릿 특징에 관한 스케일링을 수행하여 스케일링된 템플릿 특징을 생성하는 단계는, 현재 이미지 프레임에 대응하는 시야(예: 제2 시야)가 제2 참조 시야인 경우 참조 템플릿 특징을 축소하여 스케일링된 템플릿 특징을 생성하는 단계, 및 현재 이미지 프레임에 대응하는 시야가 제3 참조 시야인 경우 템플릿 특징을 확대하여 스케일링된 템플릿 특징을 생성하는 단계를 포함할 수 있다.

예를 들어, 도 10a에 도시된 것처럼, 제1 이미지 프레임(1001)에 관한 크롭/스케일링(1011)을 통해 템플릿 이미지(1003)가 획득될 수 있다. 템플릿 이미지(1003)는 타겟의 1배 크기로 크롭되어 백본 네트워크(1013)의 입력 요구 사항(예: 127*127)에 맞게 스케일링될 수 있다. 백본 네트워크(1013)는 스케일링 결과에 따른 템플릿 특징(1005)을 생성할 수 있다. 제1 이미지 프레임(1001) 및 프레임 T(현재 이미지 프레임)(1002)에 관해 normal FOV가 이용되는 경우, 이미지 프레임 T(1002)로부터 프레임 T-1(이전 이미지 프레임)에 대응하는 타겟 위치를 중심으로 프레임 T-1의 타겟 크기의 s배의 크기의 검색 이미지(1004)가 추출될 수 있고, 검색 이미지(1004)는 백본 네트워크(1014)의 입력 요구 사항(예: 255*255)에 따라 스케일링될 수 있다. 검색 이미지(1004)의 추출 및 스케일링은 크롭/스케일링(1012) 블록을 통해 수행될 수 있다. 스케일링 결과는 백본 네트워크(1014)를 통과하여 검색 영역 특징(1006)이 획득될 수 있고, 검색 영역 특징(1006)과 템플릿 특징(1006) 간의 관련성이 계산될 수 있다. 예를 들어, 템플릿 특징(1005)의 크기는 w*h*C, 검색 특징(1006)의 크기는 W*H*C일 수 있다.

도 10b에 도시된 것처럼, 프레임 T(1022)에 관해 wide FOV가 이용되는 경우, 예를 들어 wide FOV가 normal FOV의 r배(r>1)(예: r=2)인 경우, 프레임 T(1022)로부터 프레임 T-1에 대응하는 타겟 위치를 중심으로 프레임 T-1의 타겟 크기의 s*r배의 크기의 검색 이미지(1023)가 추출될 수 있고, 검색 이미지(1023)는 백본 네트워크(1032)의 입력 요구 사항(예: 255*255)에 따라 스케일링될 수 있다. 스케일링에 따라 타겟의 크기는 1/r 배로 줄어들 수 있다. 관련성 계산 시 검색 특징과 템플릿 특징의 스케일을 일치시키기 위해, 템플릿 특징(1005)도 대응 비율로 스케일링될 수 있다. 이에 따라, 템플릿 특징(1005)은 원래 크기의 1/r배로 축소될 있다. 템플릿 특징(1005)은 도 10a의 템플릿 특징(1005)에 대응할 수 있다. 템플릿 특징(1005)은 리스케일링 네트워크(1031)를 통해 리스케일링될 수 있고, 리스케일링 결과(1021)와 검색 특징(1024) 간의 관련성이 계산될 수 있다.

도 10c에 도시된 것처럼, 프레임 T(1042)에 관해 narrow FOV가 이용되는 경우, 예를 들어 narrow FOV가 normal FOV의 1/r배(r>1)(예: r=2, 1/r=1/2)인 경우, 프레임 T(1042)로부터 프레임 T-1의 타겟 크기의 s*1/r배의 검색 이미지(1043)가 추출될 수 있고, 검색 이미지(1043)는 백본 네트워크(1053)의 입력 요구 사항(예: 255*255)에 따라 스케일링될 수 있다. 이에 따라, 타겟의 크기는 r배 확대될 수 있다. 템플릿 특징(1005)도 리스케일링 네트워크(1051)를 통해 대응 비율, 즉 원래의 r배로 확대될 수 있고, 리스케일링 결과(1041)와 검색 특징(1044) 간의 관련성이 계산될 수 있다. 그 밖에, 도 10b 및 도 10c에는 도 10a의 설명이 적용될 수 있다.

템플릿 특징 커널의 리스케일링 네트워크(예: 1031, 1051, 1060, 1070, 1142, 1192)는 단일 레이어 또는 더 적은 수의 레이어(예: 2~3개의 레이어)를 가진 신경망일 수 있다. 본 네트워크의 기능은 w*h*C의 템플릿 특징을 (w/r)*(h/r)*C 또는 (rw)*(rh)*C로 스케일링하는 것일 수 있다. w/r, h/r, rw, rh는 모두 정수일 수 있다. 예를 들어, 도 10d에 도시된 것처럼, w=h=4, r=2, C=256이고, 4*4*256의 특징 벡터를 2*2*256으로 스케일링하려는 경우, 리스케일링 네트워크(1060)는 컨볼루션 커널 크기가 3*3이고 패딩 크기가 0인 컨볼루션 레이어를 이용하거나, 혹은 최대 풀링 레이어(max-pooling layer)를 이용하여 이러한 스케일링 결과를 얻을 수 있다. 이와 달리, 도 10e에 도시된 것처럼, 4*4*256의 특징 벡터를 8*8*256으로 스케일링하려는 경우, 리스케일링 네트워크(1060)는 업샘플링 레이어 및 컨볼루션 커널 크기가 1*1인 컨볼루션 레이어를 이용하여 이러한 결과를 얻을 수 있다.

일 실시예에 따르면, 스케일링된 템플릿 특징 및 검색 특징에 기초하여, 현재 이미지 프레임에 대응하는 타겟 추적 결과(예: 제2 타겟 추적 결과)를 획득하는 단계는, 스케일링된 템플릿 특징을 컨볼루션 커널로 이용하여 검색 특징에 관한 컨볼루션 연산을 수행하여, 대응하는 특징 맵을 생성하는 단계, 및 특징 맵에 기초하여 대응하는 타겟 추적 결과(예: 제2 타겟 추적 결과)를 생성하는 단계를 포함할 수 있다. 특징 맵에 기초하여 타겟 추적 결과를 생성하는 단계는 지역 제안 알고리즘을 통해 실현될 수 있다.

예를 들어, 도 11a 및 도 11b에 도시된 것처럼, 트윈 네트워크 구조에 기반한 동적 FOV 타겟 추적이 수행될 수 있다. 제1 프레임의 템플릿(1101)은 크롭 및/또는 스케일링을 통해 이미지 블록으로 변환되어 백본 네트워크(1111)에 입력될 수 있고, 백본 네트워크(1111)는 템플릿 특징(1103)을 출력할 수 있다. 예를 들어, 이미지 블록의 크기는 127*127일 수 있고, 템플릿 특징(1103)의 크기는 4*4*256일 수 있다. 현재 프레임(예: 제200 프레임)의 검색 이미지(1102)는 크롭 및/또는 스케일링을 통해 이미지 블록으로 변환되어 백본 네트워크(1112)에 입력될 수 있고, 백본 네트워크(1112)는 검색 영역 특징(1104)을 출력할 수 있다. 예를 들어, 이미지 블록의 크기는 255*255일 수 있고, 검색 영역 특징(1104)의 크기는 20*20*256일 수 있다. normal FOV 추적기가 이용되는 경우, 4*4*256의 템플릿 특징(1103)과 20*20*256의 검색 영역 특징(1104) 간의 컨벌루션 연산을 통해 관련성이 계산될 수 있고, RPN(1113)을 통해 17*17*K(K는 단위당 앵커의 수)의 앵커가 출력될 수 있다. 각 앵커는 분류 분기에 따른 양의 샘플 확률 값 및 회귀 분기에 따른 후보 프레임 위치 정보를 포함할 수 있다. 확률 값 및 위치 정보에 기초하여 예측 타겟 위치(1105)가 출력될 수 있다.

도 11a에 도시된 것처럼, wide-view FOV 추적기가 이용되는 경우, r배(예: r=2)로 확대된 상태의 검색 영역의 검색 이미지(1132)가 크롭 및/또는 스케일링을 통해 이미지 블록으로 변환되어 백본 네트워크(1112)에 입력될 수 있고, 백본 네트워크(1112)는 검색 영역 특징(1135)을 출력할 수 있다. 검색 이미지(1132)의 크롭 및/또는 스케일링 과정에서 객체는 1/r배로 축소될 수 있다. 템플릿 특징(1103)은 템플릿 리스케일링 네트워크(1142)를 통해 1/r배 축소될 수 있고, 리스케일링 결과(1134)와 검색 영역 특징(1135) 간의 컨벌루션 연산을 통해 관련성이 계산될 수 있다. RPN(1144)은 19*19*K의 앵커를 출력할 수 있다. 확률 값 및 위치 정보에 기초하여 예측 타겟 위치(1136)가 출력될 수 있다.

도 11b에 도시된 것처럼, narrow-view FOV 추적기가 이용되는 경우, 1/r배(예:r=1)배로 축소된 상태의 검색 영역의 검색 이미지(1182)가 크롭 및/또는 스케일링을 통해 이미지 블록으로 변환되어 백본 네트워크(1193)에 입력될 수 있고, 백본 네트워크(1193)는 검색 영역 특징(1185)을 출력할 수 있다. 검색 이미지(1182)의 크롭 및/또는 스케일링 과정에서 객체는 r배로 확대될 수 있다. 템플릿 특징(1183)은 템플릿 리스케일링 네트워크(1192)를 통해 r배 확대될 수 있고, 리스케일링 결과(1184)와 검색 영역 특징(1185) 간의 컨벌루션 연산을 통해 관련성이 계산될 수 있다. RPN(1194)은 12*12*K의 앵커를 출력할 수 있다. 그 밖에, 도 11a의 설명이 도 11b에 적용될 수 있다.

실시예들에 따른 객체 추적 방법은 단일 카메라 시스템에서 서로 다른 검색 영역 크기뿐만 아니라 다중 카메라 시스템에서 서로 다른 시야를 갖는 카메라 조합에도 적용될 수 있다. 예를 들어, 실시예들은 서로 다른 시야를 갖는 복수의 카메라가 장착된 모바일 기기에 적용될 수 있다. 조리개 범위(aperture range), 환산 초점 거리(equivalent focal length)와 같은 파라미터는 카메라마다 다를 수 있다. 이하, 듀얼 카메라가 장착된 모바일 기기의 타겟 추적 기능을 통해 실시예들의 동작을 더 설명한다. 예를 들어, 듀얼 카메라는 26mm 환산 초점 거리 및 f/1.8의 노멀 카메라, 및 13mm 환산 초점 거리 및 f/2.2의 광각 카메라가 이용될 수 있다. 실시예들에 따른 객체 추적 방법에서, 제1 이미지 프레임(예: 이전 이미지 프레임)과 제2 이미지 프레임(예: 현재 이미지 프레임)은 동일한 모바일 기기(예: 스마트 폰)의 서로 다른 이미지 수집 장치(예: 카메라)를 통해 수집될 수 있다. 예를 들어, 제1 이미지 프레임은 노멀 카메라를 통해 수집되고, 제2 이미지 프레임은 광각 카메라를 통해 수집될 수 있다.

도 12에 도시된 것처럼, normal FOV의 노멀 카메라를 통해 이미지 프레임(1210)이 획득될 수 있다. 이미지 프레임(1210)에서 타겟 선박(1211)의 일부는 프레임을 벗어났다. 이에 따라, 타겟 선박(1211)에 비해 템플릿과의 유사도가 더 높은 주변 선박(1212)이 타겟으로 잘못 설정될 수 있다. 예측 신뢰도가 낮다는 것이 확인되면, 실시예들에 따른 시야 결정 방식에 따라, wide FOV의 광각 카메라를 통해 이미지 프레임(1220)이 획득될 수 있다. 이미지 프레임(1220)은 이미지 프레임(1210)의 다음 프레임일 수 있다. 이미지 프레임(1220)으로부터 이미지 블록(1221)이 획득될 수 있고, 타겟 선박(1210)에 대응하는 바운딩 박스(1222)가 도출될 수 있다.

도 13은 일 실시예에 따른 네트워크 플로우 모델 기반의 EV 주차 슬롯 할당 장치를 나타낸 블록도이다. 도 13을 참조하면, 객체 추적 장치(1300)는 프로세서(1310) 및 메모리(1320)를 포함한다. 메모리(1320)는 프로세서(1310)에 연결되고, 프로세서(1310)에 의해 실행가능한 명령어들, 프로세서(1310)가 연산할 데이터 또는 프로세서(1310)에 의해 처리된 데이터를 저장할 수 있다. 메모리(1320)는 비일시적인 컴퓨터 판독가능 매체, 예컨대 고속 랜덤 액세스 메모리 및/또는 비휘발성 컴퓨터 판독가능 저장 매체(예컨대, 하나 이상의 디스크 저장 장치, 플래쉬 메모리 장치, 또는 기타 비휘발성 솔리드 스테이트 메모리 장치)를 포함할 수 있다.

프로세서(1310)는 도 1 내지 도 12, 및 도 14의 동작을 수행하기 위한 명령어들을 실행할 수 있다. 예를 들어, 프로세서(1310)는 제1 시야로 제1 이미지 프레임에 관한 타겟 추적을 수행하여 제1 타겟 추적 상태를 결정하고, 제1 시야 및 제1 타겟 추적 상태에 기초하여 제2 시야를 결정하고, 제2 시야로 제2 이미지 프레임에 관한 타겟 추적을 수행하여 제2 타겟 추적 결과를 생성할 수 있다. 프로세서(1310)는 제1 이미지 프레임에 관한 타겟 추적을 수행하여 제1 타겟 추적 결과를 생성하고, 제1 타겟 추적 결과에 기초하여 제1 타겟 추적 상태를 결정할 수 있다.

제1 타겟 추적 결과는 예측 신뢰도를 포함할 수 있고, 프로세서(1310)는 예측 신뢰도와 미리 설정된 임계 값 간의 비교 결과에 따라 제1 타겟 추적 상태를 결정할 수 있다. 제1 타겟 추적 결과는 타겟 위치 및 타겟 크기 중 적어도 하나, 및 예측 신뢰도를 포함할 수 있고, 프로세서(1310)는 타겟 위치 및 타겟 크기 중 적어도 하나에 기초하여, 제1 이미지 프레임에 대응하는 타겟 상대 변위 및 제1 이미지 프레임의 타겟 크기와 전체 크기 사이의 비율 중 적어도 하나를 획득하고, 타겟 상대 변위와 참조 변위 간의 비교 결과 및 비율과 참조 비율 간의 비교 결과 중 적어도 하나, 및 예측 신뢰도와 미리 설정된 임계 값 간의 비교 결과에 기초하여, 제1 타겟 추적 상태를 결정할 수 있다.

그 밖에, 객체 추적 장치(1300)에 도 1 내지 도 12, 및 도 14의 설명이 적용될 수 있다.

도 14는 일 실시예에 따른 전자 장치를 나타낸 블록도이다. 도 14를 참조하면, 전자 장치(1400)는 프로세서(1410), 메모리(1420), 카메라(1430), 저장 장치(1440), 입력 장치(1450), 출력 장치(1460) 및 네트워크 인터페이스(1470)를 포함할 수 있으며, 이들은 통신 버스(1480)를 통해 서로 통신할 수 있다. 예를 들어, 전자 장치(1400)는 이동 전화, 스마트 폰, PDA, 넷북, 태블릿 컴퓨터, 랩톱 컴퓨터 등과 같은 모바일 장치, 스마트 워치, 스마트 밴드, 스마트 안경 등과 같은 웨어러블 디바이스, 데스크탑, 서버 등과 같은 컴퓨팅 장치, 텔레비전, 스마트 텔레비전, 냉장고 등과 같은 가전 제품, 도어 락 등과 같은 보안 장치, 자율주행 차량, 스마트 차량 등과 같은 차량의 적어도 일부로 구현될 수 있다. 전자 장치(1400)는 도 13의 객체 추적 장치(1300)를 구조적 및/또는 기능적으로 포함할 수 있다.

프로세서(1410)는 전자 장치(1400) 내에서 실행하기 위한 기능 및 명령어들을 실행한다. 예를 들어, 프로세서(1410)는 메모리(1420) 또는 저장 장치(1440)에 저장된 명령어들을 처리할 수 있다. 프로세서(1410)는 도 1 내지 도 13을 통하여 설명된 하나 이상의 동작을 수행할 수 있다. 메모리(1420)는 컴퓨터 판독가능한 저장 매체 또는 컴퓨터 판독가능한 저장 장치를 포함할 수 있다. 메모리(1420)는 프로세서(1410)에 의해 실행하기 위한 명령어들을 저장할 수 있고, 전자 장치(1400)에 의해 소프트웨어 및/또는 애플리케이션이 실행되는 동안 관련 정보를 저장할 수 있다.

카메라(1430)는 사진 및/또는 비디오를 촬영할 수 있다. 카메라(1430)는 복수의 참조 시야들(예: normal FOV, wide FOV, narrow FOV)로 동작할 수 있다. 예를 들어, 카메라(1430)는 서로 다른 시야를 갖는 복수의 카메라들을 이용하거나, 혹은 서로 다른 시야를 갖는 렌즈들을 이용하여 서로 다른 시야의 이미지를 생성할 수 있다.

저장 장치(1440)는 컴퓨터 판독가능한 저장 매체 또는 컴퓨터 판독가능한 저장 장치를 포함한다. 저장 장치(1440)는 메모리(1420)보다 더 많은 양의 정보를 저장하고, 정보를 장기간 저장할 수 있다. 예를 들어, 저장 장치(1440)는 자기 하드 디스크, 광 디스크, 플래쉬 메모리, 플로피 디스크 또는 이 기술 분야에서 알려진 다른 형태의 비휘발성 메모리를 포함할 수 있다.

입력 장치(1450)는 키보드 및 마우스를 통한 전통적인 입력 방식, 및 터치 입력, 음성 입력, 및 이미지 입력과 같은 새로운 입력 방식을 통해 사용자로부터 입력을 수신할 수 있다. 예를 들어, 입력 장치(1450)는 키보드, 마우스, 터치 스크린, 마이크로폰, 또는 사용자로부터 입력을 검출하고, 검출된 입력을 전자 장치(1400)에 전달할 수 있는 임의의 다른 장치를 포함할 수 있다. 출력 장치(1460)는 시각적, 청각적 또는 촉각적인 채널을 통해 사용자에게 전자 장치(1400)의 출력을 제공할 수 있다. 출력 장치(1460)는 예를 들어, 디스플레이, 터치 스크린, 스피커, 진동 발생 장치 또는 사용자에게 출력을 제공할 수 있는 임의의 다른 장치를 포함할 수 있다. 네트워크 인터페이스(1470)는 유선 또는 무선 네트워크를 통해 외부 장치와 통신할 수 있다.

실시예들에 따른 장치는 AI 모델을 통해 복수의 모듈 중 적어도 하나의 모듈을 구현할 수 있다. AI와 관련된 기능은 비휘발성 메모리, 휘발성 메모리 및 프로세서에 의해 수행될 수 있다.

해당 프로세서는 하나 이상의 프로세서를 포함할 수 있다. 이때, 해당 하나 이상의 프로세서는 중앙 처리 장치(CPU), 애플리케이션 프로세서(AP) 등과 같은 범용 프로세서 또는 그래픽 처리 장치(GPU), 비주얼 처리 장치(VPU)와 같은 순수 그래픽 처리 장치, 및/또는 신경 처리 장치(NPU)와 같은 AI 전용 프로세서일 수 있다.

해당 하나 이상의 프로세서는 비휘발성 메모리 및 휘발성 메모리에 저장된 사전 정의된 동작 규칙 또는 인공 지능(AI) 모델에 따라 입력 데이터의 처리를 제어한다. 훈련 또는 학습을 통해 사전 정의된 동작 규칙 또는 인공 지능 모델을 제공한다.

여기서, 학습을 통한 제공은 복수의 학습 데이터에 학습 알고리즘을 적용하여 사전 정의된 동작 규칙이나 원하는 특성을 가진 AI 모델을 얻는 것을 의미한다. 해당 학습은 실시예에 따른 AI가 수행되는 장치 자체에서 수행될 수 있고, 및/또는 별도의 서버/시스템에 의해 구현될 수 있다.

해당 AI 모델에는 복수의 신경망 레이어가 포함될 수 있다. 각 레이어에는 복수의 가중치 값이 있고, 하나의 레이어 계산은 이전 레이어의 계산 결과와 현재 레이어의 복수의 가중치를 통해 수행된다. 신경망의 예로, 컨볼루션 신경망(CNN), 심층 신경망(DNN), 순환 신경망(RNN), 제한된 볼츠만 머신(RBM), 심층 신뢰 신경망(DBN), 양방향 순환 신경망(BRDNN), 생성적 대립쌍 네트워(GAN) 및 심층 Q 네트워크를 포함하나 이에 제한되지 않는다.

학습 알고리즘은 복수의 학습 데이터를 이용하여 소정의 타겟 장치(예: 로봇)를 훈련하여 타겟 장치가 결정 또는 예측하도록 인에이블, 허용 또는 제어하는 방법이다. 해당 학습 알고리즘의 예로, 지도 학습, 비지도 학습, 반 지도 학습 또는 강화 학습을 포함하나 이에 제한되지 않는다.

이상에서 설명된 실시예들은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치, 방법 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 이용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 컨트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 저장할 수 있으며 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 이용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 이용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.

위에서 설명한 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 또는 복수의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 이를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

제1 시야(field of view, FOV)로 제1 이미지 프레임에 관한 타겟 추적을 수행하여 제1 타겟 추적 상태를 결정하는 단계;
상기 제1 시야 및 상기 제1 타겟 추적 상태에 기초하여 제2 시야를 결정하는 단계; 및
상기 제2 시야로 제2 이미지 프레임에 관한 타겟 추적을 수행하여 제2 타겟 추적 결과를 생성하는 단계
를 포함하는 객체 추적 방법.
제1항에 있어서,
상기 제1 이미지 프레임과 상기 제2 이미지 프레임은 동일한 전자 장치의 서로 다른 이미지 수집 장치에 의해 수집되는,
객체 추적 방법.
제1항에 있어서,
상기 제1 시야 및 상기 제2 시야는 미리 정해진 참조 시야들로부터 선택되는,
객체 추적 방법.
제3항에 있어서,
상기 제1 타겟 추적 상태를 결정하는 단계는
상기 제1 이미지 프레임에 관한 타겟 추적을 수행하여 제1 타겟 추적 결과를 생성하는 단계; 및
상기 제1 타겟 추적 결과에 기초하여 상기 제1 타겟 추적 상태를 결정하는 단계
를 포함하는, 객체 추적 방법.
제4항에 있어서,
상기 제1 타겟 추적 결과는 예측 신뢰도를 포함하고,
상기 제1 타겟 추적 결과에 기초하여 상기 제1 타겟 추적 상태를 결정하는 단계는
상기 예측 신뢰도와 미리 설정된 임계 값 간의 비교 결과에 따라 상기 제1 타겟 추적 상태를 결정하는 단계를 포함하는,
객체 추적 방법.
제5항에 있어서,
상기 미리 설정된 임계 값은 제1 임계 값 및 제2 임계 값을 포함하고,
상기 비교 결과에 따라 상기 제1 타겟 추적 상태를 결정하는 단계는
상기 예측 신뢰도가 상기 제1 임계 값보다 큰 경우 상기 제1 타겟 추적 상태를 제1 상태로 결정하는 단계;
상기 예측 신뢰도가 상기 제2 임계 값보다 작은 경우 상기 제1 타겟 추적 상태를 제2 상태로 결정하는 단계; 및
상기 예측 신뢰도가 상기 제2 임계 값보다 크고 상기 제1 임계 값보다 작은 경우 상기 제1 타겟 추적 상태를 제3 상태로 결정하는 단계
중 적어도 하나를 포함하는, 객체 추적 방법.
제6항에 있어서,
상기 제1 시야 및 상기 제2 시야는 제1 참조 시야, 제2 참조 시야, 및 제3 참조 시야로부터 선택되고, 상기 제2 참조 시야는 상기 제1 참조 시야보다 크고, 상기 제3 참조 시야는 상기 제1 참조 시야보다 작고,
상기 제2 시야를 결정하는 단계는
상기 제1 시야가 상기 제1 참조 시야일 때, 상기 제1 타겟 추적 상태가 상기 제2 상태인 경우 상기 제2 시야를 상기 제2 참조 시야로 결정하고, 상기 제1 타겟 추적 상태가 상기 제1 상태인 경우 상기 제2 시야를 상기 제3 참조 시야로 결정하고, 상기 제1 타겟 추적 상태가 상기 제3 상태인 경우 상기 제2 시야를 상기 제1 참조 시야로 결정하는 단계;
상기 제1 시야가 상기 제2 참조 시야일 때, 상기 제1 타겟 추적 상태가 상기 제2 상태인 경우 상기 제2 시야를 상기 제2 참조 시야로 결정하고, 상기 제1 타겟 추적 상태가 상기 제1 상태인 경우 상기 제2 시야를 상기 제1 참조 시야로 결정하고, 상기 제1 타겟 추적 상태가 상기 제3 상태인 경우 상기 제2 시야를 상기 제2 참조 시야로 결정하는 단계; 및
상기 제1 시야가 상기 제3 참조 시야일 때, 상기 제1 타겟 추적 상태가 상기 제2 상태인 경우 상기 제2 시야를 상기 제1 참조 시야로 결정하고, 상기 제1 타겟 추적 상태가 상기 제1 상태인 경우 상기 제2 시야를 상기 제3 참조 시야로 결정하고, 상기 제1 타겟 추적 상태가 상기 제3 상태인 경우 상기 제2 시야를 상기 제3 참조 시야로 결정하는 단계
중 적어도 하나를 포함하는, 객체 추적 방법.
제7항에 있어서,
상기 제2 타겟 추적 결과를 생성하는 단계는
상기 제2 이미지 프레임이 속하는 이미지 시퀀스 중 초기 이미지 프레임에 기초하여 참조 템플릿 특징을 설정하는 단계;
상기 제2 시야 및 상기 제1 이미지 프레임의 타겟 위치에 기초하여 상기 제2 이미지 프레임의 검색 영역을 결정하고, 상기 검색 영역으로부터 검색 특징을 획득하는 단계; 및
상기 참조 템플릿 특징 및 상기 검색 특징에 기초하여, 상기 제2 타겟 추적 결과를 생성하는 단계
를 포함하는, 객체 추적 방법.
제8항에 있어서,
상기 참조 템플릿 특징 및 상기 검색 특징에 기초하여, 상기 제2 타겟 추적 결과를 생성하는 단계는
상기 제2 시야가 상기 제2 참조 시야 또는 상기 제3 참조 시야인 경우, 상기 참조 템플릿 특징에 관한 스케일링을 수행하여 스케일링된 템플릿 특징을 생성하는 단계; 및
상기 스케일링된 템플릿 특징 및 상기 검색 특징에 기초하여, 상기 제2 타겟 추적 결과를 생성하는 단계
를 포함하는, 객체 추적 방법.
제9항에 있어서,
상기 스케일링된 템플릿 특징을 생성하는 단계는
상기 제2 시야가 상기 제2 참조 시야인 경우 상기 참조 템플릿 특징을 축소하여 상기 스케일링된 템플릿 특징을 생성하는 단계; 및
상기 제2 시야가 상기 제3 참조 시야인 경우 상기 참조 템플릿 특징을 확대하여 상기 스케일링된 템플릿 특징을 생성하는 단계
를 포함하는, 객체 추적 방법.
제10항에 있어서,
상기 스케일링된 템플릿 특징 및 상기 검색 특징에 기초하여, 상기 제2 타겟 추적 결과를 생성하는 단계는
상기 스케일링된 템플릿 특징을 컨볼루션 커널로 이용하여 상기 검색 특징에 대한 컨볼루션 연산을 수행하여, 특징 맵을 생성하는 단계; 및
상기 특징 맵에 기초하여 상기 제2 타겟 추적 결과를 획득하는 단계
를 포함하는, 객체 추적 방법.
제4항에 있어서,
상기 제1 타겟 추적 결과는 타겟 위치 및 타겟 크기 중 적어도 하나, 및 예측 신뢰도를 포함하고,
상기 제1 타겟 추적 결과에 기초하여 상기 제1 타겟 추적 상태를 결정하는 단계는
상기 타겟 위치 및 상기 타겟 크기 중 적어도 하나에 기초하여, 상기 제1 이미지 프레임에 대응하는 타겟 상대 변위 및 상기 제1 이미지 프레임의 타겟 크기와 전체 크기 사이의 비율 중 적어도 하나를 획득하는 단계; 및
상기 타겟 상대 변위와 참조 변위 간의 비교 결과 및 상기 비율과 참조 비율 간의 비교 결과 중 적어도 하나, 및 상기 예측 신뢰도와 미리 설정된 임계 값 간의 비교 결과에 기초하여, 상기 제1 타겟 추적 상태를 결정하는 단계
를 포함하는, 객체 추적 방법.
제12항에 있어서,
상기 타겟 상대 변위와 상기 참조 변위 간의 상기 비교 결과 및 상기 비율과 상기 참조 비율 간의 상기 비교 결과 중 적어도 하나, 및 상기 예측 신뢰도와 상기 미리 설정된 임계 값의 상기 비교 결과에 기초하여, 상기 제1 타겟 추적 상태를 결정하는 단계는
상기 예측 신뢰도가 제1 임계 값보다 크고 상기 타겟 상대 변위가 상기 참조 변위보다 작은 경우 상기 제1 타겟 추적 상태를 제1 상태로 결정하는 단계;
상기 예측 신뢰도가 제2 임계 값보다 크고 상기 비율이 상기 참조 비율보다 작은 경우 상기 제1 타겟 추적 상태를 제2 상태로 결정하는 단계; 및
상기 예측 신뢰도가 상기 제2 임계 값보다 크고 상기 제1 임계 값보다 작은 경우 상기 제1 타겟 추적 상태를 제3 상태로 결정하는 단계
중 적어도 하나를 포함하는, 객체 추적 방법.
제1항 내지 제13항 중 어느 한 항의 방법을 수행하는 명령어들을 포함하는 하나 이상의 프로그램을 저장한 컴퓨터 판독 가능 저장매체.
프로세서; 및
상기 프로세서에서 실행가능한 명령어들을 포함하는 메모리
를 포함하고,
상기 명령어들이 상기 프로세서에서 실행되면, 상기 프로세서는
제1 시야(field of view, FOV)로 제1 이미지 프레임에 관한 타겟 추적을 수행하여 제1 타겟 추적 상태를 결정하고,
상기 제1 시야 및 상기 제1 타겟 추적 상태에 기초하여 제2 시야를 결정하고,
상기 제2 시야로 제2 이미지 프레임에 관한 타겟 추적을 수행하여 제2 타겟 추적 결과를 생성하는,
를 포함하는 객체 추적 장치.
제15항에 있어서,
상기 프로세서는
상기 제1 이미지 프레임에 관한 타겟 추적을 수행하여 제1 타겟 추적 결과를 생성하고,
상기 제1 타겟 추적 결과에 기초하여 상기 제1 타겟 추적 상태를 결정하는,
객체 추적 장치.
제16항에 있어서,
상기 제1 타겟 추적 결과는 예측 신뢰도를 포함하고,
상기 프로세서는
상기 예측 신뢰도와 미리 설정된 임계 값 간의 비교 결과에 따라 상기 제1 타겟 추적 상태를 결정하는,
객체 추적 장치.
제16항에 있어서,
상기 제1 타겟 추적 결과는 타겟 위치 및 타겟 크기 중 적어도 하나, 및 예측 신뢰도를 포함하고,
상기 프로세서는
상기 타겟 위치 및 상기 타겟 크기 중 적어도 하나에 기초하여, 상기 제1 이미지 프레임에 대응하는 타겟 상대 변위 및 상기 제1 이미지 프레임의 타겟 크기와 전체 크기 사이의 비율 중 적어도 하나를 획득하고,
상기 타겟 상대 변위와 참조 변위 간의 비교 결과 및 상기 비율과 참조 비율 간의 비교 결과 중 적어도 하나, 및 상기 예측 신뢰도와 미리 설정된 임계 값 간의 비교 결과에 기초하여, 상기 제1 타겟 추적 상태를 결정하는,
객체 추적 장치.
복수의 참조 시야들로 동작하는 카메라; 및
제1 시야로 제1 이미지 프레임에 관한 타겟 추적을 수행하여 제1 타겟 추적 상태를 결정하고, 상기 제1 시야 및 상기 제1 타겟 추적 상태에 기초하여 제2 시야를 결정하고, 상기 제2 시야로 제2 이미지 프레임에 관한 타겟 추적을 수행하여 제2 타겟 추적 결과를 생성하는 프로세서
를 포함하고,
상기 제1 시야는 상기 복수의 참조 시야들 중 제1 참조 시야에 해당하고, 상기 제2 시야는 상기 복수의 참조 시야들 중 제2 참조 시야에 해당하는,
전자 장치.
제19항에 있어서,
상기 프로세서는
상기 제1 이미지 프레임에 관한 타겟 추적을 수행하여 제1 타겟 추적 결과를 생성하고,
상기 제1 타겟 추적 결과에 기초하여 상기 제1 타겟 추적 상태를 결정하는,
전자 장치.