KR20230153206A

KR20230153206A - 객체 추적 방법 및 장치

Info

Publication number: KR20230153206A
Application number: KR1020220073261A
Authority: KR
Inventors: 이동욱; 이서형; 박창범; 유병인; 이현정
Original assignee: 삼성전자주식회사
Priority date: 2022-04-28
Filing date: 2022-06-16
Publication date: 2023-11-06

Abstract

객체 추적 방법 및 장치가 제공된다. 일 실시예에 따르면, 그 방법은 제1 시퀀스 그룹의 제1 영상 프레임들을 위한 제1 템플릿을 이용하여 제1 영상 프레임들에 관한 순방향 객체 추적을 수행하고, 제2 시퀀스 그룹의 제2 영상 프레임들을 위한 제2 템플릿의 템플릿 후보를 결정하고, 템플릿 후보를 이용하여 제1 영상 프레임들에 관한 역방향 객체 추적을 수행하고, 제1 영상 프레임들에 관한 순방향 객체 추적에 따른 제1 추적 결과 및 제1 영상 프레임들에 관한 역방향 객체 추적에 따른 제2 추적 결과에 기초한 비교 결과를 이용하여 템플릿 후보의 신뢰도를 결정하고, 템플릿 후보의 신뢰도에 기초하여 제2 템플릿을 결정하고, 제2 템플릿을 이용하여 제2 영상 프레임들에 관한 순방향 객체 추적을 수행하는 단계들을 포함할 수 있다.

Description

객체 추적 방법 및 장치{METHOD AND APPARATUS FOR OBJECT TRACKING}

아래 실시예들은 객체 추적 방법 및 장치에 관한 것이다.

인식 프로세스의 기술적 자동화는, 예를 들어, 특수한 계산 구조로서 프로세서로 구현된 뉴럴 네트워크 모델을 통해 구현되었으며, 이는 상당한 훈련 후에 입력 패턴과 출력 패턴 사이에서 계산상 직관적인 매핑을 제공할 수 있다. 이러한 맵핑을 생성하는 훈련된 능력은 신경망의 학습 능력이라 할 수 있다. 더구나, 특화된 훈련으로 인해, 이와 같이 특화되어 훈련된 신경망은, 예를 들어, 훈련하지 않은 입력 패턴에 대하여 비교적 정확한 출력을 발생시키는 일반화 능력을 가질 수 있다.

일 실시예에 따르면, 객체 추적 방법은 제1 시퀀스 그룹의 제1 영상 프레임들을 위한 제1 템플릿을 이용하여 상기 제1 영상 프레임들에 관한 순방향 객체 추적을 수행하는 단계; 제2 시퀀스 그룹의 제2 영상 프레임들을 위한 제2 템플릿의 템플릿 후보를 결정하는 단계; 상기 템플릿 후보를 이용하여 상기 제1 영상 프레임들에 관한 역방향 객체 추적을 수행하는 단계; 상기 제1 영상 프레임들에 관한 상기 순방향 객체 추적에 따른 제1 추적 결과 및 상기 제1 영상 프레임들에 관한 상기 역방향 객체 추적에 따른 제2 추적 결과에 기초한 비교 결과를 이용하여 상기 템플릿 후보의 신뢰도를 결정하는 단계; 상기 템플릿 후보의 상기 신뢰도에 기초하여 상기 제2 템플릿을 결정하는 단계; 및 상기 제2 템플릿을 이용하여 상기 제2 영상 프레임들에 관한 순방향 객체 추적을 수행하는 단계를 포함한다.

일 실시예에 따르면, 객체 추적 장치는 프로세서; 및 상기 프로세서에서 실행가능한 명령어들을 포함하는 메모리를 포함하고, 상기 명령어들이 상기 프로세서에서 실행되면, 상기 프로세서는 제1 시퀀스 그룹의 제1 영상 프레임들을 위한 제1 템플릿을 이용하여 상기 제1 영상 프레임들에 관한 순방향 객체 추적을 수행하고, 제2 시퀀스 그룹의 제2 영상 프레임들을 위한 제2 템플릿의 템플릿 후보를 결정하고, 상기 템플릿 후보를 이용하여 상기 제1 영상 프레임들에 관한 역방향 객체 추적을 수행하고, 상기 제1 영상 프레임들에 관한 상기 순방향 객체 추적에 따른 제1 추적 결과 및 상기 제1 영상 프레임들에 관한 상기 역방향 객체 추적에 따른 제2 추적 결과에 기초한 비교 결과를 이용하여 상기 템플릿 후보의 신뢰도를 결정하고, 상기 템플릿 후보의 상기 신뢰도에 기초하여 상기 제2 템플릿을 결정하고, 상기 제2 템플릿을 이용하여 상기 제2 영상 프레임들에 관한 순방향 객체 추적을 수행한다.

일 실시예에 따르면, 전자 장치는 복수의 영상 프레임들을 포함하는 입력 영상을 생성하는 카메라; 및 상기 입력 영상의 제1 시퀀스 그룹의 제1 영상 프레임들을 위한 제1 템플릿을 이용하여 상기 제1 영상 프레임들에 관한 순방향 객체 추적을 수행하고, 상기 입력 영상의 제2 시퀀스 그룹의 제2 영상 프레임들을 위한 제2 템플릿의 템플릿 후보를 결정하고, 상기 템플릿 후보를 이용하여 상기 제1 영상 프레임들에 관한 역방향 객체 추적을 수행하고, 상기 제1 영상 프레임들에 관한 상기 순방향 객체 추적에 따른 제1 추적 결과 및 상기 제1 영상 프레임들에 관한 상기 역방향 객체 추적에 따른 제2 추적 결과에 기초한 비교 결과를 이용하여 상기 템플릿 후보의 신뢰도를 결정하고, 상기 템플릿 후보의 상기 신뢰도에 기초하여 상기 제2 템플릿을 결정하고, 상기 제2 템플릿을 이용하여 상기 제2 영상 프레임들에 관한 순방향 객체 추적을 수행하는, 프로세서를 포함한다.

도 1은 일 실시예에 따른 객체 추적 장치의 구성 및 동작을 개략적으로 나타낸다.
도 2는 일 실시예에 따른 유사도 점수를 도출하는 동작을 나타낸다.
도 3은 일 실시예에 따른 템플릿을 업데이트하는 동작을 나타낸다.
도 4는 일 실시예에 따른 순방향 객체 추적 및 역방향 객체 추적의 추적 결과를 나타낸다.
도 5는 일 실시예에 따른 역방향 객체 추적의 검증 능력을 예시적으로 나타낸다.
도 6은 일 실시예에 따른 순방향 객체 추적 및 역방향 객체 추적의 진행 과정을 나타낸다.
도 7은 일 실시예에 따른 멀티 템플릿 후보 기반의 템플릿 업데이트 동작을 나타낸다.
도 8a 및 도 8b는 다양한 실시예들에 따른 템플릿 업데이트 동작의 구현 예시를 나타낸다.
도 9는 일 실시예에 따른 객체 추적 방법의 플로우 차트를 나타낸다.
도 10은 일 실시예에 따른 객체 추정 장치의 블록도를 나타낸다.
도 11은 일 실시예에 따른 전자 장치의 블록도를 나타난다.

실시예들에 대한 특정한 구조적 또는 기능적 설명들은 단지 예시를 위한 목적으로 개시된 것으로서, 다양한 형태로 변경되어 구현될 수 있다. 따라서, 실제 구현되는 형태는 개시된 특정 실시예로만 한정되는 것이 아니며, 본 명세서의 범위는 실시예들로 설명한 기술적 사상에 포함되는 변경, 균등물, 또는 대체물을 포함한다.

제1 또는 제2 등의 용어를 다양한 구성요소들을 설명하는데 사용될 수 있지만, 이런 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 해석되어야 한다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다.

단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 설명된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함으로 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 해당 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이하, 실시예들을 첨부된 도면들을 참조하여 상세하게 설명한다. 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조 부호를 부여하고, 이에 대한 중복되는 설명은 생략하기로 한다.

도 1은 일 실시예에 따른 객체 추적 장치의 구성 및 동작을 개략적으로 나타낸다. 도 1을 참조하면, 객체 추적 장치(object tracking apparatus, 100)는 템플릿 영상(template image, 101) 및 탐색 영상(search image, 102)에 기초하여 추적 결과(tracking result, 103)를 출력할 수 있다. 템플릿 영상(101)은 추적의 대상이 되는 타겟 객체의 정보를 제공할 수 있다. 객체 추적 장치(100)는 템플릿 영상(101)의 타겟 객체 정보를 이용하여 탐색 영상(102)에서 타겟 객체를 추적할 수 있다. 추적 결과(103)는 탐색 영상(102) 내 타겟 객체의 위치를 나타낼 수 있다. 예를 들어, 추적 결과(103)는 자동 추적 동작, 줌 동작(zooming), 포커스 동작(focusing)에 사용될 수 있다.

일 실시예에 따르면, 템플릿 영상(101)과 탐색 영상(102)은 입력 영상의 복수의 영상 프레임들에 대응할 수 있다. 예를 들어, 템플릿 영상(101)은 복수의 영상 프레임들을 포함하는 입력 비디오 파일의 어느 하나의 영상 프레임에 대응할 수 있고, 탐색 영상(102)은 템플릿 영상(101)에 대응하는 영상 프레임 이후의 적어도 하나의 영상 프레임에 대응할 수 있다. 다른 일 실시예에 따르면, 템플릿 영상(101)과 탐색 영상(102)은 서로 독립적인 파일에 대응할 수 있다. 예를 들어, 탐색 영상(102)은 복수의 영상 프레임들을 포함하는 입력 비디오 파일에 대응할 수 있고, 템플릿 영상(101)은 해당 입력 비디오 파일과 무관한 스틸 입력 영상 파일에 대응할 수 있다. 어느 경우든 템플릿 영상(101)은 타겟 객체를 포함할 수 있고, 객체 추적 장치(100)는 탐색 영상(102)에서 타겟 객체를 추적하여 추적 결과(103)를 생성할 수 있다. 템플릿 영상(101) 및 탐색 영상(102)은 대응 영상 프레임의 전체 영역에 해당하거나, 혹은 대응 영상 프레임의 일부 영역에 해당할 수 있다. 예를 들어, 객체 추적 장치(100)는 탐색 영상(102) 내 탐색 영역을 설정하고, 탐색 영역 내에서 타겟 객체를 추적할 수 있다.

객체 추적 장치(100)는 객체 추적 모델(110)을 이용하여 추적 결과(103)를 생성할 수 있다. 객체 추적 모델(110)은 기계 학습(machine learning) 기반의 인공지능 모델(artificial intelligence model)을 포함할 수 있다. 예를 들어, 객체 추적 모델(110)은 복수의 레이어들을 포함하는 딥 뉴럴 네트워크(deep neural network, DNN)를 포함할 수 있다. 복수의 레이어들은 입력 레이어(input layer), 적어도 하나의 히든 레이어(hidden layer), 및 출력 레이어(output layer)를 포함할 수 있다.

딥 뉴럴 네트워크는 완전 연결 네트워크(fully connected network, FCN), 컨볼루셔널 뉴럴 네트워크(convolutional neural network, CNN), 및 리커런트 뉴럴 네트워크(recurrent neural network, RNN) 중 적어도 하나를 포함할 수 있다. 예를 들어, 뉴럴 네트워크 내 복수의 레이어들 중 적어도 일부는 CNN에 해당할 수 있고, 다른 일부는 FCN에 해당할 수 있다. 이 경우, CNN은 컨볼루셔널 레이어로 지칭될 수 있고, FCN은 완전 연결 레이어로 지칭될 수 있다.

CNN의 경우, 각 레이어에 입력되는 데이터는 입력 특징 맵(input feature map)으로 지칭될 수 있고, 각 레이어에서 출력되는 데이터는 출력 특징 맵(output feature map)으로 지칭될 수 있다. 입력 특징 맵 및 출력 특징 맵은 액티베이션 데이터(activation data)로 지칭될 수도 있다. 컨볼루셔널 레이어가 입력 레이어에 해당하는 경우, 입력 레이어의 입력 특징 맵은 입력 영상일 수 있다. 입력 특징 맵과 웨이트 커널(weight kernel) 간의 컨볼루션 연산을 통해 출력 특징 맵이 생성될 수 있다. 입력 특징 맵, 출력 특징 맵, 및 웨이트 커널은 각각 텐서(tensor) 단위로 구분될 수 있다.

뉴럴 네트워크는 딥 러닝에 기반하여 트레이닝된 후, 비선형적 관계에 있는 입력 데이터 및 출력 데이터를 서로 매핑함으로써 트레이닝 목적에 맞는 추론(inference)을 수행해낼 수 있다. 딥 러닝은 빅 데이터 세트로부터 영상 또는 음성 인식과 같은 문제를 해결하기 위한 기계 학습 기법이다. 딥 러닝은 준비된 트레이닝 데이터를 이용하여 뉴럴 네트워크를 트레이닝하면서 에너지가 최소화되는 지점을 찾아가는 최적화 문제 풀이 과정으로 이해될 수 있다.

딥 러닝의 지도식(supervised) 또는 비지도식(unsupervised) 학습을 통해 뉴럴 네트워크의 구조, 혹은 모델에 대응하는 웨이트(weight)가 구해질 수 있고, 이러한 웨이트를 통해 입력 데이터 및 출력 데이터가 서로 매핑될 수 있다. 뉴럴 네트워크의 폭과 깊이가 충분히 크면 임의의 함수를 구현할 수 있을 만큼의 용량(capacity)을 가질 수 있다. 뉴럴 네트워크가 적절한 트레이닝 과정을 통해 충분히 많은 양의 트레이닝 데이터를 학습하면 최적의 성능을 달성할 수 있다.

아래에서 뉴럴 네트워크가 '미리' 트레이닝된 것으로 표현될 수 있는데, 여기서 '미리'는 뉴럴 네트워크가 '시작'되기 전을 나타낼 수 있다. 뉴럴 네트워크가 '시작'되었다는 것은 뉴럴 네트워크가 추론을 위한 준비가 된 것을 의미할 수 있다. 예를 들어, 뉴럴 네트워크가 '시작'된 것은 뉴럴 네트워크가 메모리에 로드된 것, 혹은 뉴럴 네트워크가 메모리에 로드된 이후 뉴럴 네트워크에 추론을 위한 입력 데이터가 입력된 것을 포함할 수 있다.

객체 추적 장치(100)는 템플릿 영상(101) 및 탐색 영상(102)을 객체 추적 모델(110)에 입력할 수 있고, 객체 추적 모델(110)의 출력으로부터 추적 결과(103)를 획득할 수 있다. 객체 추적 모델(110)은 템플릿 영상(101) 및 탐색 영상(102)의 입력에 기초하여 추적 결과(103)를 출력하도록 미리 트레이닝될 수 있다.

도 2는 일 실시예에 따른 유사도 점수를 도출하는 동작을 나타낸다. 도 2를 참조하면, 객체 추적 장치는 특징 추출(feature extracting, 210), 유사도 산정(similarity calculation, 220), 및 바운딩 박스 회귀(bounding box regression, 230)에 기초하여 객체 추적을 수행할 수 있다. 특징 추출(210), 유사도 산정(220), 및 바운딩 박스 회귀(230) 중 적어도 하나는 객체 추적 모델을 통해 수행될 수 있다. 예를 들어, 객체 추적 모델은 특징 추출(210)을 위한 특징 추출 네트워크, 유사도 산정(220)을 위한 유사도 산정 네트워크, 바운딩 박스 회귀(230)를 위한 바운딩 박스 회귀 네트워크 중 적어도 하나를 포함할 수 있다. 특징 추출 네트워크, 유사도 산정 네트워크, 및 바운딩 박스 회귀 네트워크는 각각 뉴럴 네트워크에 해당할 수 있다. 일례로, 객체 추적 모델은 샴 네트워크(Siamese network)를 포함할 수 있다.

객체 추적 장치는 템플릿 영상(201)으로부터 템플릿 특징 맵(211)을 추출할 수 있고, 탐색 영역(203)으로부터 탐색 특징 맵(212)을 추출할 수 있다. 객체 추적 장치는 파라미터를 공유하는 객체 추적 모델 및/또는 특징 추출 모델을 이용하여 템플릿 특징 맵(211) 및 탐색 특징 맵(212)을 추출할 수 있다. 도 2의 예시는 템플릿 영상(201)이 입력 영상의 초기 영상 프레임의 일부 영역에 해당하고, 탐색 영역(203)이 입력 영상의 제n 영상 프레임의 일부 영역에 해당하는 경우를 나타낸다. n은 1보다 큰 값을 가질 수 있다. 객체 추적 모델을 통해 템플릿 영상(201)의 템플릿 특징 맵(211)을 준비하는 동작은 객체 추적 모델의 초기화 동작으로 부를 수 있다.

제1 영상 프레임에서 타겟 객체가 결정되면, 타겟 객체에 대응하는 타겟 박스(202)가 지정될 수 있다. 예를 들어, 타겟 객체를 선택하는 사용자 입력에 따라 타겟 객체가 결정될 수 있다. 타겟 박스(202)는 바운딩 박스(bounding box)의 일종으로, 박스 위치 정보(예: x 좌표 및 y 좌표) 및 박스 사이즈 정보(예: 폭(width) 및 높이(height))를 통해 특정될 수 있다. 박스 위치 정보 및 박스 사이즈 정보는 박스 정보로 통칭될 수 있다. 타겟 박스(202)의 위치 및 사이즈에 기초하여 템플릿 영상(201)이 결정될 수 있다. 탐색 영역(203)은 템플릿 영상(201)에 기초하여 결정될 수 있다. 탐색 영역(203)의 사이즈는 템플릿 영상(201)의 사이즈에 기초하여 결정될 수 있다. 예를 들어, 탐색 영역(203)의 사이즈는 템플릿 영상(201)에 비해 크게 결정될 수 있다. 탐색 영역(203)의 위치는 이전 영상 프레임의 타겟 박스의 위치에 기초하여 결정될 수 있다. 예를 들어, 제n-1 영상 프레임으로부터 타겟 박스가 검출되면, 해당 타겟 박스의 위치에 기초하여 제n 영상 프레임의 탐색 영역이 결정될 수 있다.

객체 추적 장치는 템플릿 특징 맵(211)과 탐색 특징 맵(212)을 비교하여 유사도를 산정할 수 있다. 유사도 산정(220)은 유사도 산정 네트워크를 통해 수행될 수 있다. 유사도 산정 네트워크는 상호 상관(cross correlation) 레이어를 통해 템플릿 특징 맵(211)과 탐색 특징 맵(212) 간의 상호 상관을 도출할 수 있다. 산정 결과는 타겟 객체의 정보 및/또는 템플릿 특징 맵(211)에 대응하는 탐색 영역(203) 내의 위치를 나타낼 수 있다. 예를 들어, 산정 결과는 탐색 영역(203)에 대응하는 탐색 공간(221)에 대응 위치(222) 및/또는 대응 위치(222)의 스코어를 표시할 수 있다.

객체 추적 장치는 탐색 영역(203)에 대응하는 탐색 공간(231)에서 대응 위치(222)의 바운딩 박스들(232)을 이용한 회귀 분석 수행할 수 있다. 객체 추적 장치는 회귀 분석을 통해 탐색 영역(203)에서 타겟 객체에 대응하는 타겟 박스(204)를 결정할 수 있고, 타겟 박스(204)의 박스 정보에 기초하여 추적 결과를 생성할 수 있다.

도 3은 일 실시예에 따른 템플릿을 업데이트하는 동작을 나타낸다. 도 3을 참조하면, 탐색 영상(300)의 복수의 영상 프레임들은 제1 시퀀스 그룹(301) 및 제2 시퀀스 그룹(302)을 포함하는 복수의 시퀀스 그룹들을 분류될 수 있다. 각 시퀀스 그룹은 복수의 영상 프레임을 포함할 수 있다. 탐색 영상 내 타겟 객체의 외형(appearance)의 변화는 템플릿 영상 내 타겟 객체의 외형과 탐색 영상 내 타겟 객체의 외형 간에 차이를 발생시켜 객체 추적의 성능을 감소시킬 수 있다. 템플릿 업데이트는 탐색 영상에 나타나는 타겟 객체의 외형의 변화를 템플릿에 반영하여 객체 추적 성능의 감소를 막을 수 있다.

예를 들어, 제1 시퀀스 그룹(301)의 제1 영상 프레임들에 나타나는 타겟 객체의 외형과 제2 시퀀스 그룹(302)의 제2 영상 프레임들에 나타나는 타겟 객체의 외형 간에 차이가 발생할 수 있고, 제1 시퀀스 그룹(301)의 객체 추적을 위한 제1 템플릿(311)은 제2 시퀀스 그룹(302)의 객체 추적을 위한 제2 템플릿(321)으로 업데이트될 수 있다. 예를 들어, 제1 템플릿(311)은 제1 시퀀스 그룹(301)의 초기 영상 프레임으로부터 결정될 수 있고, 제2 템플릿(321)은 제1 시퀀스 그룹(301)의 마지막 영상 프레임으로부터 결정될 수 있다.

부적절한 영상이 템플릿으로 잘못 업데이트될 경우 객체 추적 성능이 크게 감소될 수 있다. 예를 들어, 템플릿 업데이트를 통해 기존의 템플릿 영상을 대체하는 새로운 템플릿 영상이 타겟 객체가 아닌 엉뚱한 객체를 나타내거나, 새로운 템플릿 영상이 블러(blur) 및/또는 폐색(occlusion)와 같은 문제를 가지는 경우가 존재할 수 있다. 적합도 평가를 통해 새로운 템플릿에 대한 검증을 수행하고, 새로운 템플릿이 검증에 통과할 경우 새로운 템플릿에 따른 템플릿 업데이트를 수행하여, 부적절한 템플릿 영상으로 인한 객체 추적 성능의 열화가 방지될 수 있다. 예를 들어, 제2 템플릿(321)에 대한 템플릿 후보(312)가 선정될 수 있고, 템플릿 후보(312)에 대한 검증 절차를 통해 제2 템플릿이 결정될 수 있다.

객체 추적 성능은 어떤 방식으로 템플릿의 적합도를 평가하는지에 따라 결정될 수 있다. 예를 들어, 단순히 새로운 템플릿과 기존의 템플릿 간의 유사도로 새로운 템플릿의 적합도를 평가하는 방식은 새로운 템플릿 및/또는 기존의 템플릿에 나타나는 외형 변화를 적절히 반영하지 못해 열악한 성능을 나타낼 수 있다. 예를 들어, 새로운 템플릿에 나타난 타겟 객체가 기존의 템플릿에 비해 조도, 외형, 색상 등에 변화가 있는 상태로 캡쳐된 것이라면, 새로운 템플릿이 정당한 타겟 객체를 나타나고 있음에도 불구하고 새로운 템플릿과 기존의 템플릿 간의 차이로 인해 새로운 템플릿의 신뢰도가 낮게 측정될 수 있다.

실시예들에 따른 객체 추적 장치는 역방향 객체 추적에 기반하여 템플릿 후보(312)의 적합도를 평가할 수 있다. 역방향 객체 추적은 템플릿 후보(312)에 나타난 객체의 외형뿐만 아니라 이전 프레임들에 나타난 객체의 히스토리를 나타낼 수 있고, 역방향 객체 추적 기반의 객체 추적을 통해 추적 성능이 향상될 수 있다.

도 4는 일 실시예에 따른 순방향 객체 추적 및 역방향 객체 추적의 추적 결과를 나타낸다. 도 4를 참조하면, 객체 추적 장치는 제1 시퀀스 그룹(401)의 제1 영상 프레임들을 위한 제1 템플릿(411)을 이용하여 제1 영상 프레임들에 관한 순방향 객체 추적을 수행할 수 있다. 제1 영상 프레임들에 관한 순방향 객체 추적에 따라 제1 추적 결과(F_i)가 결정될 수 있다. 제1 추적 결과(F_i)는 제1 영상 프레임들에 관한 순방향 객체 추적에 따른 제1 영상 프레임들의 제1 바운딩 박스들을 포함할 수 있다. i는 프레임 번호를 나타낸다. 객체 추적 장치는 객체 추적 모델을 이용하여 제1 영상 프레임들에서 제1 템플릿(411)에 대응하는 타겟 객체를 추적할 수 있다.

객체 추적 장치는 제2 시퀀스 그룹(402)의 제2 영상 프레임들을 위한 제2 템플릿의 템플릿 후보(412)를 결정할 수 있다. 객체 추적 장치는 제1 추적 결과(F_i)에 기초하여 템플릿 후보(412)를 결정할 수 있다. 예를 들어, 객체 추적 장치는 제1 추적 결과(F_i)의 제1 바운딩 박스들 중 마지막 영상 프레임의 바운딩 박스로부터 템플릿 후보(412)를 결정할 수 있다. 객체 추적 장치는 템플릿 후보(412)를 이용하여 제1 시퀀스 그룹(401)의 제1 영상 프레임들에 관한 역방향 객체 추적을 수행할 수 있다. 제1 영상 프레임들에 관한 역방향 객체 추적에 따라 제2 추적 결과(B_i)가 생성될 수 있다. 객체 추적 장치는 객체 추적 모델을 이용하여 제1 영상 프레임들에서 템플릿 후보(412)에 대응하는 타겟 객체를 추적할 수 있다.

역방향 객체 추적과 순방향 객체 추적에서 영상 프레임의 처리 순서는 서로 반대일 수 있다. 예를 들어, 제1 시퀀스 그룹(401)에 대한 순방향 객체 추적은 제1 영상 프레임들의 초기 영상 프레임으로부터 제1 영상 프레임들의 마지막 영상 프레임의 순서로 객체 추적을 수행할 수 있고, 제1 시퀀스 그룹(401)에 대한 역방향 객체 추적은 제1 영상 프레임들의 마지막 영상 프레임으로부터 제1 영상 프레임들의 초기 영상 프레임의 순서로 객체 추적을 수행할 수 있다.

순방향 객체 추적 및 역방향 객체 추적은 동일한 객체 추적 모델을 이용하여 수행될 수 있다. 예를 들어, 객체 추적 장치는 제1 템플릿(411)으로 객체 추적 모델을 초기화하고, 객체 추적 모델에 제1 영상 프레임들을 초기 영상 프레임으로부터 마지막 영상 프레임의 순서로 입력하여 제1 추적 결과(F_i)를 생성할 수 있다. 객체 추적 모델의 초기화는 객체 추적 모델을 통해 템플릿 영상으로부터 템플릿 특징 맵을 추출하는 것을 포함할 수 있다. 객체 추적 장치는 템플릿 후보(412)로 객체 추적 모델을 초기화하고, 객체 추적 모델에 제1 영상 프레임들을 마지막 영상 프레임으로부터 초기 영상 프레임의 순서로 입력하여 제2 추적 결과(B_i)를 생성할 수 있다. 이와 같이 순방향 객체 추적 및 역방향 객체 추적이 수행되는 동안 객체 추적 모델의 파라미터는 유지될 수 있다.

객체 추적 장치는 제1 추적 결과(F_i) 및 제2 추적 결과(B_i)에 기초한 비교 결과를 이용하여 템플릿 후보(412)의 신뢰도를 결정하고, 템플릿 후보의 신뢰도에 기초하여 제2 템플릿을 결정할 수 있다. 예를 들어, 객체 추적 장치는 제1 추적 결과(F_i) 및 제2 추적 결과(B_i)의 대응 쌍들 중 적어도 일부가 서로 겹치는 정도에 기초하여 템플릿 후보(412)의 신뢰도를 결정할 수 있다. 대응 쌍은 제1 추적 결과(F_i) 및 제2 추적 결과(B_i)에서 동일 프레임 번호를 갖는 바운딩 박스들을 의미한다. 예를 들어, F₁과 B₁, F₂와 B₂는 각각 대응 쌍을 구성할 수 있다. 객체 추적 장치는 템플릿 후보(412)의 신뢰도가 미리 설정된 임계치를 초과하는 경우 템플릿 후보(412)를 제2 템플릿으로 결정하고, 템플릿 후보(412)의 신뢰도가 미리 설정된 임계치 미만인 경우 제1 템플릿(411)을 제2 템플릿으로 결정할 수 있다. 후자의 경우 제2 시퀀스 그룹(402)의 객체 추적에 제1 템플릿(411)이 계속하여 사용될 수 있다.

도 5는 일 실시예에 따른 역방향 객체 추적의 검증 능력을 예시적으로 나타낸다. 도 5를 참조하면, 제1 시퀀스 그룹(500)은 영상 프레임들(501 내지 506)을 포함한다. 초기 영상 프레임(501)으로부터 제1 템플릿(510)이 설정될 수 있고, 객체 추적 장치는 순방향 객체 추적을 수행하여 영상 프레임들(501 내지 506)에서 제1 템플릿(510)에 대응하는 객체를 추적할 수 있다. 마지막 영상 프레임(506)으로부터 제2 템플릿의 템플릿 후보(520)가 결정될 수 있다. 예를 들어, 제1 템플릿(510)을 이용한 마지막 영상 프레임(506)의 추적 결과에 대응하는 바운딩 박스의 영상이 템플릿 후보(520)로 결정될 수 있다.

도 5에서 A는 타겟 객체를 나타내고, B 및 C는 디스트랙터(distractor)를 나타낸다. 디스트랙터는 타겟 객체는 아니지만 타겟 객체로 오인될 수 있는 객체를 의미한다. 마지막 영상 프레임(506)의 템플릿 후보(520)는 타겟 객체 A가 아닌 디스트랙터 B에 대응한다. 타겟 객체 A가 디스트렉터 C에 의해 가려져서 타겟 객체 A와 유사한 디스트랙터 B에 바운딩 박스가 형성될 수 있다. 템플릿 후보(520)로 템플릿 업데이트를 수행할 경우, 객체 추적 성능이 떨어질 수 있다.

객체 추적 장치는 역방향 객체 추적을 수행하여 영상 프레임들(501 내지 506)에서 템플릿 후보(520)에 대응하는 객체를 추적할 수 있다. 역방향 객체 추적은 템플릿 후보(520)에 나타난 객체(디스트랙터 B)의 외형뿐만 아니라 이전 영상 프레임들(501 내지 505)에 나타난 객체의 히스토리를 검토할 수 있고, 템플릿 후보(520)의 적합도 평가의 정확도를 향상시킬 수 있다. 도 5를 참조하면, 역방향 객체 추적에 따른 객체 추적 결과는 타겟 객체 A가 아닌 디스트랙터 B를 나타낸다. 따라서, 역방향 객체 추적을 통해 템플릿 후보(520)가 버려지고(discard), 제1 템플릿(510)이 다음 시퀀스 그룹의 객체 추적에 계속해서 사용될 수 있다.

도 6은 일 실시예에 따른 순방향 객체 추적 및 역방향 객체 추적의 진행 과정을 나타낸다. 도 6을 참조하면, 객체 추적 장치는 단계(601)에서 현재 템플릿을 결정하고, 단계(602)에서 템플릿으로 객체 추적 모델을 초기화한다. 예를 들어, 현재 템플릿은 초기 영상 템플릿의 타겟 객체의 바운딩 박스에 대응하도록 결정될 수 있다.

객체 추적 장치는 단계(603)에서 제t 서치 프레임을 수신하고, 단계(604)에서 순방향 객체 추적을 수행한다. 순방향 객체 추적에 따라 제t 서치 프레임의 추적 결과가 결정될 수 있다. 추적 결과는 타겟 객체에 대응하는 바운딩 박스를 나타낼 수 있다. 객체 추적 장치는 단계(605)에서 템플릿 업데이트 주기가 도래했는지 체크한다. 예를 들어, 템플릿 업데이트 주기는 특정 프레임 개수로 미리 설정될 수 있다. 템플릿 업데이트 주기가 도래하지 않았다면 객체 추적 장치는 t를 증가시킨 뒤 단계들(603, 604)을 다시 수행할 수 있다.

템플릿 업데이트 주기가 도래했다면 객체 추적 장치는 단계(606)에서 다음 템플릿의 템플릿 후보를 결정하고, 단계(607)에서 템플릿 후보로 객체 추적 모델을 초기화할 수 있다. 단계(602)의 객체 추적 모델과 단계(607)의 객체 추적 모델은 서로 다른 템플릿으로 초기화되어 서로 다른 템플릿 특징 맵을 사용하지만, 네트워크 파라미터를 공유할 수 있다. 다시 말해, 단계(602)의 객체 추적 모델과 단계(607)의 객체 추적 모델은 서로 다른 템플릿 특징 맵을 사용하는 동일한 모델에 해당할 수 있다. 객체 추적 장치는 단계(608)에서 역방향 객체 추적을 수행할 수 있다. 역방향 객체 추적은 순방향 객체 추적이 이루어진 영상 프레임들을 대상으로 역방향으로 이루어질 수 있다.

객체 추적 장치는 단계(609)에서 템플릿 후보의 신뢰도를 결정한다. 객체 추적 장치는 순방향 객체 추적에 따른 제1 추적 결과 및 역방향 객체 추적에 따른 제2 추적 결과를 결정하고, 제1 추적 결과 및 제2 추적 결과의 대응 쌍들 중 적어도 일부가 서로 겹치는 정도에 기초하여 템플릿 후보의 신뢰도를 결정할 수 있다. 대응 쌍은 제1 추적 결과 및 제2 추적 결과에서 동일 프레임 번호를 갖는 바운딩 박스들을 의미한다.

제1 추적 결과의 바운딩 박스는 제1 바운딩 박스로 제2 추적 결과의 바운딩 박스는 제2 바운딩 박스로 부를 수 있다. 객체 추적 장치는 제1 바운딩 박스들과 제2 바운딩 박스들의 대응 영상 프레임 별 대응 쌍들의 서로 겹치는 정도에 따른 제1 스코어, 제1 바운딩 박스들과 제2 바운딩 박스들의 초기 영상 프레임의 대응 쌍의 겹치는 정도에 따른 제2 스코어, 및 제1 바운딩 박스들과 제2 바운딩 박스들의 대응 영상 프레임 별 대응 쌍들 중 서로 겹치는 정도가 미리 설정된 수준을 초과하는 대응 쌍들의 개수에 따른 제3 스코어 중 적어도 일부에 기초하여 템플릿 후보의 신뢰도를 결정할 수 있다. 예를 들어, 객체 추적 장치는 스코어들 중 적어도 일부의 평균 또는 가중 평균을 통해 신뢰도를 결정할 수 있다.

제1 스코어는 아래 수학식 1과 같이 나타낼 수 있다.

수학식 1에서, score1은 제1 스코어, N은 영상 프레임들의 수(예: 하나의 시퀀스 그룹에 속하는 영상 프레임들의 수), B_i는 역방향 객체 추적에 따른 추적 결과, F_i는 순방향 객체 추적에 따른 추적 결과, IoU(B_i,F_i)는 B_i와 F_i의 겹치는 정도를 나타낸다.

제2 스코어는 아래 수학식 1과 같이 나타낼 수 있다.

수학식 2에서, score 2는 제2 스코어, B₀는 초기 영상 프레임에 대한 역방향 객체 추적에 따른 추적 결과, F₀는 초기 영상 프레임에 대한 순방향 객체 추적에 따른 추적 결과를 나타낸다.

제3 스코어는 아래 수학식 1과 같이 나타낼 수 있다.

수학식 3에서, score3은 제3 스코어, τ는 겹침 정도에 대한 임계치를 나타낸다.

객체 검출 장치는 단계(610)에서 신뢰도와 임계치(k)를 비교한다. 신뢰도가 임계치(k)보다 클 경우 객체 검출 장치는 템플릿 후보를 신뢰 가능하다고 보고 템플릿 후보로 템플릿 업데이트를 수행할 수 있다. 신뢰도가 임계치(k)보다 작을 경우 객체 검출 장치는 템플릿 후보를 신뢰할 수 없다고 보고 템플릿 후보를 버릴 수 있다. 이 경우, 기존의 템플릿이 계속하여 사용될 수 있다.

도 7은 일 실시예에 따른 멀티 템플릿 후보 기반의 템플릿 업데이트 동작을 나타낸다. 도 7을 참조하면, 객체 추적 장치는 단계(701)에서 멀티 템플릿 후보를 결정한다. 현재 템플릿과 유사도가 높은 복수의 객체가 멀티 템플릿 후보로 결정될 수 있다. 예를 들어, 영상 프레임에서 현재 템플릿과 높은 순으로 미리 정해진 개수의 객체가 멀티 템플릿 후보로 선정될 수 있다. 도 7는 객체 A, 객체 B, 및 객체 C로 멀티 템플릿 후보가 구성된 예시를 나타낸다. 멀티 템플릿 후보의 각 객체의 바운딩 박스는 템플릿 후보에 해당할 수 있다.

객체 추적 장치는 단계(702)에서 역방향 객체 추적을 수행한다. 객체 추적 장치는 멀티 템플릿 후보의 각 템플릿 후보로 객체 추적 모델을 초기화하고, 해당 객체 추적 모델을 이용하여 영상 프레임들에 대한 역방향 객체 추적을 수행할 수 있다. 그 결과, 각 템플릿 후보에 대응하는 역방향 객체 추적의 추적 결과가 도출될 수 있다. 각 템플릿 후보에 대한 역방향 객체 추적은 병렬적으로 수행될 수 있다. 이 경우, 파라미터를 공유하는 복수의 객체 추정 모델이 각 템플릿 후보로 초기화될 수 있다.

객체 추적 장치는 단계(703)에서 멀티 템플릿 후보로부터 최선의 템플릿 후보를 선택할 수 있다. 객체 추적 장치는 멀티 템플릿 후보의 각 템플릿 후보의 추적 결과에 대응하는 신뢰도를 결정할 수 있고, 멀티 템플릿 후보의 템플릿 후보들 중 가장 높은 신뢰도를 갖는 템플릿 후보를 선택할 수 있다. 객체 추적 장치는 선택된 최선의 템플릿 후보로 템플릿 업데이트를 수행할 수 있다. 멀티 템플릿 후보를 통해 타겟 객체와 유사한 객체들의 히스토리를 종합적으로 고려할 수 있으므로, 적절한 템플릿 업데이트가 이루어질 가능성을 높일 수 있다.

도 8a 및 도 8b는 다양한 실시예들에 따른 템플릿 업데이트 동작의 구현 예시를 나타낸다. 도 8a를 참조하면, 객체 추적 장치는 제1 템플릿(811)을 이용하여 제1 시퀀스 그룹(801)의 제1 영상 프레임들에 관한 순방향 객체 추적을 수행할 수 있다. 객체 추적 장치는 순방향 객체 추적의 추적 결과에 기초하여 템플릿 후보(812)를 결정할 수 있다. 객체 추적 장치는 템플릿 후보(812)를 이용하여 제1 시퀀스 그룹(801)의 제1 영상 프레임들에 관한 역방향 객체 추적을 수행할 수 있다.

객체 추적 장치는 순방향 객체 추적의 추적 결과와 역방향 객체 추적의 추적 결과에 기초하여 템플릿 후보(812)의 신뢰도를 평가하고, 템플릿 후보(812)의 신뢰도에 기초하여 제1 템플릿(811)을 제2 템플릿(821)으로 업데이트할 수 있다. 예를 들어, 객체 추적 장치는 템플릿 후보(812)의 신뢰도가 임계치보다 높은 경우 템플릿 후보(812)를 제2 템플릿(821)으로 결정할 수 있고, 템플릿 후보(812)의 신뢰도가 임계치보다 낮은 경우 제1 템플릿(811)을 제2 템플릿(821)으로 결정할 수 있다. 객체 추적 장치는 제2 템플릿(821)을 이용하여 제2 시퀀스 그룹(802)의 제2 영상 프레임들에 관한 순방향 객체 추적을 수행할 수 있다.

도 8a에서 t1은 역방향 객체 추적이 시작되는 시간, t2는 템플릿 업데이트가 완료되는 시간을 나타낸다. t1과 t2 사이에 역방향 객체 추적, 템플릿 후보(812)의 신뢰도 평가, 및 템플릿 업데이트가 이루어질 수 있다. 객체 추적 장치는 t1과 t2 사이에 순방향 객체 추적을 수행하지 않은 채 새로운 템플릿(제2 템플릿(821))을 기다릴 수 있고, t2 이후에 제2 영상 프레임들에 관한 순방향 객체 추적을 수행할 수 있다. 제1 영상 프레임들에 관한 순방향 객체 추적과 제2 영상 프레임들에 관한 순방향 객체 추적 사이에 t1과 t2 사이의 시간 구간에 대응하는 시간 지연이 발생할 수 있다.

도 8b를 참조하면, 객체 추적 장치는 제1 템플릿(815)을 이용하여 제1 시퀀스 그룹(805)의 제1 영상 프레임들에 관한 순방향 객체 추적을 수행할 수 있다. 객체 추적 장치는 순방향 객체 추적의 추적 결과에 기초하여 템플릿 후보(816)를 결정할 수 있다. 객체 추적 장치는 템플릿 후보(816)를 이용하여 제1 시퀀스 그룹(805)의 제1 영상 프레임들에 관한 역방향 객체 추적을 수행할 수 있다. 객체 추적 장치는 순방향 객체 추적의 추적 결과와 역방향 객체 추적의 추적 결과에 기초하여 템플릿 후보(816)의 신뢰도를 평가하고, 템플릿 후보(816)의 신뢰도에 기초하여 제1 템플릿(815)을 제2 템플릿(825)으로 업데이트할 수 있다.

도 8b에서 t1은 역방향 객체 추적이 시작되는 시간, t2는 템플릿 업데이트가 완료되는 시간을 나타낸다. t1과 t2 사이에 역방향 객체 추적, 템플릿 후보(812)의 신뢰도 평가, 및 템플릿 업데이트가 이루어질 수 있다. 객체 추적 장치는 새로운 템플릿(제2 템플릿(825))을 기다리지 않고 기존의 템플릿(제1 템플릿(815))을 이용하여 제2 시퀀스 그룹(806)의 제2 영상 프레임들에 관한 순방향 객체 추적을 수행할 수 있다. t2에 템플릿 업데이트가 완료되면, 객체 추적 장치는 t2 이후에 제3 시퀀스 그룹(807)의 제3 영상 프레임들에 관한 순방향 객체 추적을 수행할 수 있다. 템플릿 업데이트가 수행되는 동안 기존의 템플릿(제1 템플릿(815))을 임시적으로 이용하여 순방향 객체 추적을 계속 수행함으로써, t1과 t2 사이의 시간 구간에 대응하는 시간 지연이 방지될 수 있다. 제2 시퀀스 그룹(806)과 같이 임시적으로 기존의 템플릿(제1 템플릿(815))이 적용되는 시퀀스 그룹은 중간 시퀀스 그룹이라고 부를 수 있고, 중간 시퀀스 그룹의 영상 프레임은 중간 영상 프레임이라고 부를 수 있다.

도 9는 일 실시예에 따른 객체 추적 방법의 플로우 차트를 나타낸다. 도 9의 다양한 실시예들의 동작들(예: 동작들(910 내지 960))은 순차적으로 수행되거나, 혹은 비 순차적으로 수행될 수 있다. 예를 들어, 동작들의 순서가 변경되거나, 및/또는 동작들의 적어도 둘이 병렬적으로 수행될 수 있다. 동작들은 영상 추적 장치의 적어도 하나의 구성요소에 의해 수행될 수 있다.

도 9를 참조하면, 영상 추적 방법(900)은 제1 시퀀스 그룹의 제1 영상 프레임들을 위한 제1 템플릿을 이용하여 제1 영상 프레임들에 관한 순방향 객체 추적을 수행하는 동작(910), 제2 시퀀스 그룹의 제2 영상 프레임들을 위한 제2 템플릿의 템플릿 후보를 결정하는 동작(920), 템플릿 후보를 이용하여 제1 영상 프레임들에 관한 역방향 객체 추적을 수행하는 동작(930), 제1 영상 프레임들에 관한 순방향 객체 추적에 따른 제1 추적 결과 및 제1 영상 프레임들에 관한 역방향 객체 추적에 따른 제2 추적 결과에 기초한 비교 결과를 이용하여 템플릿 후보의 신뢰도를 결정하는 동작(940), 템플릿 후보의 신뢰도에 기초하여 제2 템플릿을 결정하는 동작(950), 및 제2 템플릿을 이용하여 제2 영상 프레임들에 관한 순방향 객체 추적을 수행하는 동작(960)을 포함한다.

제1 영상 프레임들에 관한 순방향 객체 추적은 제1 영상 프레임들의 초기 영상 프레임으로부터 제1 영상 프레임들의 마지막 영상 프레임의 순서로 객체 추적을 수행하고, 제1 영상 프레임들에 관한 역방향 객체 추적은 제1 영상 프레임들의 마지막 영상 프레임으로부터 제1 영상 프레임들의 초기 영상 프레임의 순서로 객체 추적을 수행할 수 있다.

제1 영상 프레임들에 관한 순방향 객체 추적 및 제1 영상 프레임들에 관한 역방향 객체 추적은 동일한 객체 추적 모델을 이용하여 수행될 수 있다.

제1 추적 결과는 제1 영상 프레임들에 관한 순방향 객체 추적에 따른 제1 영상 프레임들의 제1 바운딩 박스들을 포함하고, 제2 추적 결과는 제1 영상 프레임들에 관한 역방향 객체 추적에 따른 제1 영상 프레임들의 제2 바운딩 박스들을 포함할 수 있다.

템플릿 후보의 신뢰도는 제1 바운딩 박스들과 제2 바운딩 박스들의 대응 영상 프레임 별 대응 쌍들의 서로 겹치는 정도에 따른 제1 스코어, 제1 바운딩 박스들과 제2 바운딩 박스들의 초기 영상 프레임의 대응 쌍의 겹치는 정도에 따른 제2 스코어, 및 제1 바운딩 박스들과 제2 바운딩 박스들의 대응 영상 프레임 별 대응 쌍들 중 서로 겹치는 정도가 미리 설정된 수준을 초과하는 대응 쌍들의 개수에 따른 제3 스코어 중 적어도 일부에 기초하여 결정될 수 있다.

동작(950)은 템플릿 후보의 신뢰도가 미리 설정된 임계치를 초과하는 경우, 템플릿 후보를 제2 템플릿으로 결정하는 동작, 및 템플릿 후보의 신뢰도가 미리 설정된 임계치 미만인 경우, 제1 템플릿을 제2 템플릿으로 결정하는 동작을 포함할 수 있다.

객체 추적 방법(900)은 제2 템플릿의 제2 템플릿 후보를 결정하는 동작, 제2 템플릿 후보를 이용하여 제1 영상 프레임들에 관한 역방향 객체 추적을 수행하는 동작, 및 제1 영상 프레임들에 관한 순방향 객체 추적에 따른 제1 추적 결과 및 제2 템플릿 후보를 이용한 제1 영상 프레임들에 관한 역방향 객체 추적에 따른 제3 추적 결과에 기초한 비교 결과를 이용하여 제2 템플릿 후보의 신뢰도를 결정하는 동작을 더 포함할 수 있다. 이때, 동작(950)은 템플릿 후보의 신뢰도 및 제2 템플릿 후보의 신뢰도에 기초하여 제2 템플릿을 결정하는 동작을 포함할 수 있다. 이때, 제2 템플릿 후보의 결정, 제2 템플릿 후보를 이용한 제1 영상 프레임들에 관한 역방향 객체 추적, 및 제2 템플릿 후보의 신뢰도 결정은 템플릿 후보의 결정, 템플릿 후보를 이용한 제1 영상 프레임들에 관한 역방향 객체 추적, 및 템플릿 후보의 신뢰도 결정과 병렬적으로 수행될 수 있다.

객체 추적 방법(900)은 제2 템플릿의 결정에 소요되는 시간 동안 제1 시퀀스 그룹과 제2 시퀀스 그룹 사이의 중간 시퀀스 그룹의 중간 영상 프레임들에 관한 순방향 객체 추적을 수행하는 동작을 더 포함할 수 있다.

그 밖에, 도 1 내지 도 8, 도 10, 및 도 11의 설명이 도 9의 객체 추적 방법에 적용될 수 있다.

도 10은 일 실시예에 따른 객체 추정 장치의 블록도를 나타낸다. 도 10을 참조하면, 객체 추적 장치(1000)는 프로세서(1010) 및 메모리(1020)를 포함한다. 메모리(1020)는 프로세서(1010)에 연결되고, 프로세서(1010)에 의해 실행가능한 명령어들, 프로세서(1010)가 연산할 데이터 또는 프로세서(1010)에 의해 처리된 데이터를 저장할 수 있다. 메모리(1020)는 비일시적인 컴퓨터 판독가능 매체, 예컨대 고속 랜덤 액세스 메모리 및/또는 비휘발성 컴퓨터 판독가능 저장 매체(예컨대, 하나 이상의 디스크 저장 장치, 플래쉬 메모리 장치, 또는 기타 비휘발성 솔리드 스테이트 메모리 장치)를 포함할 수 있다.

프로세서(1010)는 도 1 내지 도 9, 및 도 11의 동작을 수행하기 위한 명령어들을 실행할 수 있다. 예를 들어, 프로세서(1010)는 제1 시퀀스 그룹의 제1 영상 프레임들을 위한 제1 템플릿을 이용하여 상기 제1 영상 프레임들에 관한 순방향 객체 추적을 수행하고, 제2 시퀀스 그룹의 제2 영상 프레임들을 위한 제2 템플릿의 템플릿 후보를 결정하고, 상기 템플릿 후보를 이용하여 상기 제1 영상 프레임들에 관한 역방향 객체 추적을 수행하고, 상기 제1 영상 프레임들에 관한 상기 순방향 객체 추적에 따른 제1 추적 결과 및 상기 제1 영상 프레임들에 관한 상기 역방향 객체 추적에 따른 제2 추적 결과에 기초한 비교 결과를 이용하여 상기 템플릿 후보의 신뢰도를 결정하고, 상기 템플릿 후보의 상기 신뢰도에 기초하여 상기 제2 템플릿을 결정하고, 상기 제2 템플릿을 이용하여 상기 제2 영상 프레임들에 관한 순방향 객체 추적을 수행할 수 있다.

그 밖에, 객체 추적 장치(800)에는 도 1 내지 도 7, 도 9, 및 도 10의 설명이 적용될 수 있다.

도 11은 일 실시예에 따른 전자 장치의 블록도를 나타난다. 도 11를 참조하면, 전자 장치(1100)는 프로세서(1110), 메모리(1120), 카메라(1130), 저장 장치(1140), 입력 장치(1150), 출력 장치(1160) 및 네트워크 인터페이스(1170)를 포함할 수 있으며, 이들은 통신 버스(1180)를 통해 서로 통신할 수 있다. 예를 들어, 전자 장치(1100)는 이동 전화, 스마트 폰, PDA, 넷북, 태블릿 컴퓨터, 랩톱 컴퓨터 등과 같은 모바일 장치, 스마트 워치, 스마트 밴드, 스마트 안경 등과 같은 웨어러블 디바이스, 데스크탑, 서버 등과 같은 컴퓨팅 장치, 텔레비전, 스마트 텔레비전, 냉장고 등과 같은 가전 제품, 도어 락 등과 같은 보안 장치, 자율주행 차량, 스마트 차량 등과 같은 차량의 적어도 일부로 구현될 수 있다. 전자 장치(1100)는 객체 추적 장치(100, 1000)를 구조적 및/또는 기능적으로 포함할 수 있다.

프로세서(1110)는 전자 장치(1100) 내에서 실행하기 위한 기능 및 명령어들을 실행한다. 예를 들어, 프로세서(1110)는 메모리(1120) 또는 저장 장치(1140)에 저장된 명령어들을 처리할 수 있다. 프로세서(1110)는 도 1 내지 도 10의 동작을 수행할 수 있다. 메모리(1120)는 컴퓨터 판독가능한 저장 매체 또는 컴퓨터 판독가능한 저장 장치를 포함할 수 있다. 메모리(1120)는 프로세서(1110)에 의해 실행하기 위한 명령어들을 저장할 수 있고, 전자 장치(1100)에 의해 소프트웨어 및/또는 애플리케이션이 실행되는 동안 관련 정보를 저장할 수 있다.

카메라(1130)는 사진 및/또는 비디오를 촬영할 수 있다. 예를 들어, 카메라(1130)는 복수의 영상 프레임들을 포함하는 입력 영상을 생성할 수 있다. 복수의 영상 프레임들은 템플릿 영상 및 탐색 영상 중 적어도 일부를 포함할 수 있다. 저장 장치(1140)는 컴퓨터 판독가능한 저장 매체 또는 컴퓨터 판독가능한 저장 장치를 포함한다. 저장 장치(1140)는 메모리(1120)보다 더 많은 양의 정보를 저장하고, 정보를 장기간 저장할 수 있다. 예를 들어, 저장 장치(1140)는 자기 하드 디스크, 광 디스크, 플래쉬 메모리, 플로피 디스크 또는 이 기술 분야에서 알려진 다른 형태의 비휘발성 메모리를 포함할 수 있다.

입력 장치(1150)는 키보드 및 마우스를 통한 전통적인 입력 방식, 및 터치 입력, 음성 입력, 및 이미지 입력과 같은 새로운 입력 방식을 통해 사용자로부터 입력을 수신할 수 있다. 예를 들어, 입력 장치(1150)는 키보드, 마우스, 터치 스크린, 마이크로폰, 또는 사용자로부터 입력을 검출하고, 검출된 입력을 전자 장치(1100)에 전달할 수 있는 임의의 다른 장치를 포함할 수 있다. 출력 장치(1160)는 시각적, 청각적 또는 촉각적인 채널을 통해 사용자에게 전자 장치(1100)의 출력을 제공할 수 있다. 출력 장치(1160)는 예를 들어, 디스플레이, 터치 스크린, 스피커, 진동 발생 장치 또는 사용자에게 출력을 제공할 수 있는 임의의 다른 장치를 포함할 수 있다. 네트워크 인터페이스(1170)는 유선 또는 무선 네트워크를 통해 외부 장치와 통신할 수 있다.

그 밖에, 전자 장치(1100)에는 도 1 내지 도 10의 설명이 적용될 수 있다.

이상에서 설명된 실시예들은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치, 방법 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 컨트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 저장할 수 있으며 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.

위에서 설명한 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 또는 복수의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 이를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

객체 추적 방법에 있어서,
제1 시퀀스 그룹의 제1 영상 프레임들을 위한 제1 템플릿을 이용하여 상기 제1 영상 프레임들에 관한 순방향 객체 추적을 수행하는 단계;
제2 시퀀스 그룹의 제2 영상 프레임들을 위한 제2 템플릿의 템플릿 후보를 결정하는 단계;
상기 템플릿 후보를 이용하여 상기 제1 영상 프레임들에 관한 역방향 객체 추적을 수행하는 단계;
상기 제1 영상 프레임들에 관한 상기 순방향 객체 추적에 따른 제1 추적 결과 및 상기 제1 영상 프레임들에 관한 상기 역방향 객체 추적에 따른 제2 추적 결과에 기초한 비교 결과를 이용하여 상기 템플릿 후보의 신뢰도를 결정하는 단계;
상기 템플릿 후보의 상기 신뢰도에 기초하여 상기 제2 템플릿을 결정하는 단계; 및
상기 제2 템플릿을 이용하여 상기 제2 영상 프레임들에 관한 순방향 객체 추적을 수행하는 단계
를 포함하는 객체 추적 방법.
제1항에 있어서,
상기 제1 영상 프레임들에 관한 상기 순방향 객체 추적은 상기 제1 영상 프레임들의 초기 영상 프레임으로부터 상기 제1 영상 프레임들의 마지막 영상 프레임의 순서로 객체 추적을 수행하고,
상기 제1 영상 프레임들에 관한 상기 역방향 객체 추적은 상기 제1 영상 프레임들의 상기 마지막 영상 프레임으로부터 상기 제1 영상 프레임들의 상기 초기 영상 프레임의 순서로 객체 추적을 수행하는,
객체 추적 방법.
제1항에 있어서,
상기 제1 영상 프레임들에 관한 상기 순방향 객체 추적 및 상기 제1 영상 프레임들에 관한 상기 역방향 객체 추적은 동일한 객체 추적 모델을 이용하여 수행되는,
객체 추적 방법.
제1항에 있어서,
상기 제1 추적 결과는
상기 제1 영상 프레임들에 관한 상기 순방향 객체 추적에 따른 상기 제1 영상 프레임들의 제1 바운딩 박스들을 포함하고,
상기 제2 추적 결과는
상기 제1 영상 프레임들에 관한 상기 역방향 객체 추적에 따른 상기 제1 영상 프레임들의 제2 바운딩 박스들을 포함하는,
객체 추적 방법.
제4항에 있어서,
상기 템플릿 후보의 상기 신뢰도는
상기 제1 바운딩 박스들과 상기 제2 바운딩 박스들의 대응 영상 프레임 별 대응 쌍들의 서로 겹치는 정도에 따른 제1 스코어,
상기 제1 바운딩 박스들과 상기 제2 바운딩 박스들의 초기 영상 프레임의 대응 쌍의 겹치는 정도에 따른 제2 스코어, 및
상기 제1 바운딩 박스들과 상기 제2 바운딩 박스들의 대응 영상 프레임 별 대응 쌍들 중 서로 겹치는 정도가 미리 설정된 수준을 초과하는 대응 쌍들의 개수에 따른 제3 스코어
중 적어도 일부에 기초하여 결정되는,
객체 추적 방법.
제1항에 있어서,
상기 제2 템플릿을 결정하는 단계는
상기 템플릿 후보의 상기 신뢰도가 미리 설정된 임계치를 초과하는 경우, 상기 템플릿 후보를 상기 제2 템플릿으로 결정하는 단계; 및
상기 템플릿 후보의 상기 신뢰도가 미리 설정된 임계치 미만인 경우, 상기 제1 템플릿을 상기 제2 템플릿으로 결정하는 단계
를 포함하는, 객체 추적 방법.
제1항에 있어서,
상기 객체 추적 방법은
상기 제2 템플릿의 제2 템플릿 후보를 결정하는 단계;
상기 제2 템플릿 후보를 이용하여 상기 제1 영상 프레임들에 관한 역방향 객체 추적을 수행하는 단계; 및
상기 제1 영상 프레임들에 관한 상기 순방향 객체 추적에 따른 상기 제1 추적 결과 및 상기 제2 템플릿 후보를 이용한 상기 제1 영상 프레임들에 관한 상기 역방향 객체 추적에 따른 제3 추적 결과에 기초한 비교 결과를 이용하여 상기 제2 템플릿 후보의 신뢰도를 결정하는 단계
를 더 포함하고,
상기 제2 템플릿을 결정하는 단계는
상기 템플릿 후보의 상기 신뢰도 및 상기 제2 템플릿 후보의 상기 신뢰도에 기초하여 상기 제2 템플릿을 결정하는 단계를 포함하는,
객체 추적 방법.
제7항에 있어서,
상기 제2 템플릿 후보의 결정, 상기 제2 템플릿 후보를 이용한 상기 제1 영상 프레임들에 관한 상기 역방향 객체 추적, 및 상기 제2 템플릿 후보의 신뢰도 결정은
상기 템플릿 후보의 결정, 상기 템플릿 후보를 이용한 상기 제1 영상 프레임들에 관한 상기 역방향 객체 추적, 및 상기 템플릿 후보의 신뢰도 결정과 병렬적으로 수행되는,
객체 추적 방법.
제1항에 있어서,
상기 객체 추적 방법은
상기 제2 템플릿의 결정에 소요되는 시간 동안 상기 제1 시퀀스 그룹과 상기 제2 시퀀스 그룹 사이의 중간 시퀀스 그룹의 중간 영상 프레임들에 관한 순방향 객체 추적을 수행하는 단계를 더 포함하는,
객체 추적 방법.
하드웨어와 결합되어 제1항 내지 제9항 중 어느 하나의 항의 방법을 실행시키기 위하여 컴퓨터 판독 가능한 기록매체에 저장된 컴퓨터 프로그램.
프로세서; 및
상기 프로세서에서 실행가능한 명령어들을 포함하는 메모리
를 포함하고,
상기 명령어들이 상기 프로세서에서 실행되면, 상기 프로세서는
제1 시퀀스 그룹의 제1 영상 프레임들을 위한 제1 템플릿을 이용하여 상기 제1 영상 프레임들에 관한 순방향 객체 추적을 수행하고,
제2 시퀀스 그룹의 제2 영상 프레임들을 위한 제2 템플릿의 템플릿 후보를 결정하고,
상기 템플릿 후보를 이용하여 상기 제1 영상 프레임들에 관한 역방향 객체 추적을 수행하고,
상기 제1 영상 프레임들에 관한 상기 순방향 객체 추적에 따른 제1 추적 결과 및 상기 제1 영상 프레임들에 관한 상기 역방향 객체 추적에 따른 제2 추적 결과에 기초한 비교 결과를 이용하여 상기 템플릿 후보의 신뢰도를 결정하고,
상기 템플릿 후보의 상기 신뢰도에 기초하여 상기 제2 템플릿을 결정하고,
상기 제2 템플릿을 이용하여 상기 제2 영상 프레임들에 관한 순방향 객체 추적을 수행하는,
객체 추적 장치.
제11항에 있어서,
상기1 제1 영상 프레임들에 관한 상기 순방향 객체 추적은 상기 제1 영상 프레임들의 초기 영상 프레임으로부터 상기 제1 영상 프레임들의 마지막 영상 프레임의 순서로 객체 추적을 수행하고,
상기 제1 영상 프레임들에 관한 상기 역방향 객체 추적은 상기 제1 영상 프레임들의 상기 마지막 영상 프레임으로부터 상기 제1 영상 프레임들의 상기 초기 영상 프레임의 순서로 객체 추적을 수행하는,
객체 추적 장치.
제11항에 있어서,
상기 제1 추적 결과는
상기 제1 영상 프레임들에 관한 상기 순방향 객체 추적에 따른 상기 제1 영상 프레임들의 제1 바운딩 박스들을 포함하고,
상기 제2 추적 결과는
상기 제1 영상 프레임들에 관한 상기 역방향 객체 추적에 따른 상기 제1 영상 프레임들의 제2 바운딩 박스들을 포함하는,
객체 추적 장치.
제13항에 있어서,
상기 템플릿 후보의 상기 신뢰도는
상기 제1 바운딩 박스들과 상기 제2 바운딩 박스들의 대응 영상 프레임 별 대응 쌍들의 서로 겹치는 정도에 따른 제1 스코어,
상기 제1 바운딩 박스들과 상기 제2 바운딩 박스들의 초기 영상 프레임의 대응 쌍의 겹치는 정도에 따른 제2 스코어, 및
상기 제1 바운딩 박스들과 상기 제2 바운딩 박스들의 대응 영상 프레임 별 대응 쌍들 중 서로 겹치는 정도가 미리 설정된 수준을 초과하는 대응 쌍들의 개수에 따른 제3 스코어
중 적어도 일부에 기초하여 결정되는,
객체 추적 장치.
제11항에 있어서,
상기 프로세서는
상기 제2 템플릿의 제2 템플릿 후보를 결정하고,
상기 제2 템플릿 후보를 이용하여 상기 제1 영상 프레임들에 관한 역방향 객체 추적을 수행하고,
상기 제1 영상 프레임들에 관한 상기 순방향 객체 추적에 따른 상기 제1 추적 결과 및 상기 제2 템플릿 후보를 이용한 상기 제1 영상 프레임들에 관한 상기 역방향 객체 추적에 따른 제3 추적 결과에 기초한 비교 결과를 이용하여 상기 제2 템플릿 후보의 신뢰도를 결정하고,
상기 템플릿 후보의 상기 신뢰도 및 상기 제2 템플릿 후보의 상기 신뢰도에 기초하여 상기 제2 템플릿을 결정하는,
객체 추적 장치.
제15항에 있어서,
상기 제2 템플릿 후보의 결정, 상기 제2 템플릿 후보를 이용한 상기 제1 영상 프레임들에 관한 상기 역방향 객체 추적, 및 상기 제2 템플릿 후보의 신뢰도 결정은
상기 템플릿 후보의 결정, 상기 템플릿 후보를 이용한 상기 제1 영상 프레임들에 관한 상기 역방향 객체 추적, 및 상기 템플릿 후보의 신뢰도 결정과 병렬적으로 수행되는,
객체 추적 장치.
제11항에 있어서,
상기 프로세서는
상기 제2 템플릿의 결정에 소요되는 시간 동안 상기 제1 시퀀스 그룹과 상기 제2 시퀀스 그룹 사이의 중간 시퀀스 그룹의 중간 영상 프레임들에 관한 순방향 객체 추적을 수행하는,
객체 추적 장치.
복수의 영상 프레임들을 포함하는 입력 영상을 생성하는 카메라; 및
상기 입력 영상의 제1 시퀀스 그룹의 제1 영상 프레임들을 위한 제1 템플릿을 이용하여 상기 제1 영상 프레임들에 관한 순방향 객체 추적을 수행하고,
상기 입력 영상의 제2 시퀀스 그룹의 제2 영상 프레임들을 위한 제2 템플릿의 템플릿 후보를 결정하고,
상기 템플릿 후보를 이용하여 상기 제1 영상 프레임들에 관한 역방향 객체 추적을 수행하고,
상기 제1 영상 프레임들에 관한 상기 순방향 객체 추적에 따른 제1 추적 결과 및 상기 제1 영상 프레임들에 관한 상기 역방향 객체 추적에 따른 제2 추적 결과에 기초한 비교 결과를 이용하여 상기 템플릿 후보의 신뢰도를 결정하고,
상기 템플릿 후보의 상기 신뢰도에 기초하여 상기 제2 템플릿을 결정하고,
상기 제2 템플릿을 이용하여 상기 제2 영상 프레임들에 관한 순방향 객체 추적을 수행하는, 프로세서
를 포함하는, 전자 장치.
제18항에 있어서,
상기 제1 영상 프레임들에 관한 상기 순방향 객체 추적은 상기 제1 영상 프레임들의 초기 영상 프레임으로부터 상기 제1 영상 프레임들의 마지막 영상 프레임의 순서로 객체 추적을 수행하고,
상기 제1 영상 프레임들에 관한 상기 역방향 객체 추적은 상기 제1 영상 프레임들의 상기 마지막 영상 프레임으로부터 상기 제1 영상 프레임들의 상기 초기 영상 프레임의 순서로 객체 추적을 수행하고,
전자 장치.
제18항에 있어서,
상기 제1 추적 결과는
상기 제1 영상 프레임들에 관한 상기 순방향 객체 추적에 따른 상기 제1 영상 프레임들의 제1 바운딩 박스들을 포함하고,
상기 제2 추적 결과는
상기 제1 영상 프레임들에 관한 상기 역방향 객체 추적에 따른 상기 제1 영상 프레임들의 제2 바운딩 박스들을 포함하는,
상기 템플릿 후보의 상기 신뢰도는
상기 제1 바운딩 박스들과 상기 제2 바운딩 박스들의 대응 영상 프레임 별 대응 쌍들의 서로 겹치는 정도에 따른 제1 스코어,
상기 제1 바운딩 박스들과 상기 제2 바운딩 박스들의 초기 영상 프레임의 대응 쌍의 겹치는 정도에 따른 제2 스코어, 및
상기 제1 바운딩 박스들과 상기 제2 바운딩 박스들의 대응 영상 프레임 별 대응 쌍들 중 서로 겹치는 정도가 미리 설정된 수준을 초과하는 대응 쌍들의 개수에 따른 제3 스코어
중 적어도 일부에 기초하여 결정되는,
전자 장치.