KR20230030996A

KR20230030996A - 객체 추적 장치 및 방법

Info

Publication number: KR20230030996A
Application number: KR1020210113330A
Authority: KR
Inventors: 윤영철
Original assignee: 현대자동차주식회사; 기아 주식회사
Priority date: 2021-08-26
Filing date: 2021-08-26
Publication date: 2023-03-07
Also published as: US20230069608A1

Abstract

본 발명은 객체 추적 장치 및 방법에 관한 것으로, 카메라로부터 t시점의 제1 영상을 수신하고, 상기 제1 영상 및 t-1 시점의 제2 영상을 기반으로 호모그래피 행렬을 도출하고, 상기 호모그래피 행렬을 이용하여 상기 제2 영상에서 검출된 제1 객체의 위치를 보정하고, 상기 제1 영상에서 상기 제1 객체와 매칭되는 제2 객체를 검출하고, 상기 제1 객체의 보정된 위치를 기반으로 상기 제2 객체의 위치 변화를 추적한다.

Description

객체 추적 장치 및 방법{OBJECT TRACKING APPARATUS AND METHOD}

본 발명은 객체 추적 장치 및 방법에 관한 것이다.

호모그래피(homography)는 한 평면을 다른 평면에 투영(projection)시켰을 때 투영된 대응점들 간의 변환관계이다. 호모그래피는 주로 영상 변화 및 교정에 활용된다. 호모그래피를 구하는 방식에는 특징점 매칭 방식 및 딥러닝 방식 등이 있다. 이러한 방식들은 호모그래피를 구할 때 동적인 객체 영역을 제외하거나 고려하지 않는다. 또한, 딥러닝 방식은 두 이미지 간의 ground truth 호모그래피를 알아야하므로, 데이터셋(dataset)을 만들기 어렵다는 한계가 있다.

KR

100869570

B1

KR

101489468

B1

KR

1020210019609

A

KR

1020120048958

A

KR

101480824

B1

Zhang J. et al. (2020) Content-Aware Unsupervised Deep Homography Estimation. In: Vedaldi A., Bischof H., Brox T., Frahm JM. (eds) Computer Vision - ECCV 2020. Lecture Notes in Computer Science, vol 12346. Springer, Cham. https://doi.org/10.1007/978-3-030-58452-8_38 J. H. Yoon, M. Yang, J. Lim and K. Yoon, "Bayesian Multi-object Tracking Using Motion Context from Multiple Objects," 2015 IEEE Winter Conference on Applications of Computer Vision, 2015, pp. 33-40, doi: 10.1109/WACV.2015.12. J. H. Yoon, C. Lee, M. Yang and K. Yoon, "Online Multi-object Tracking via Structural Constraint Event Aggregation," 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016, pp. 1392-1400, doi: 10.1109/CVPR.2016.155.

본 발명은 RGB 영상만을 이용하여 카메라 움직임을 상쇄하여 객체의 위치를 보정하는 객체 추적 장치 및 그의 객체 추적 방법을 제공하고자 한다.

본 발명의 실시 예들에 따른 객체 추적 방법은 카메라로부터 t시점의 제1 영상을 수신하는 단계, 상기 제1 영상 및 t-1 시점의 제2 영상을 기반으로 호모그래피 행렬을 도출하는 단계, 상기 호모그래피 행렬을 이용하여 상기 제2 영상에서 검출된 제1 객체의 위치를 보정하는 단계, 상기 제1 영상에서 상기 제1 객체와 매칭되는 제2 객체를 검출하는 단계, 및 상기 제1 객체의 보정된 위치를 기반으로 상기 제2 객체의 위치 변화를 추적하는 단계를 포함하는 것을 특징으로 한다.

상기 호모그래피 행렬을 도출하는 단계는, 제1 호모그래피 도출 방식 또는 제2 호모그래피 도출 방식을 이용하여 상기 호모그래피 행렬을 도출하는 단계를 포함하는 것을 특징으로 한다.

상기 호모그래피 행렬을 도출하는 단계는, 제1 호모그래피 도출 방식 및 제2 호모그래피 도출 방식을 이용하여 제1 호모그래피 행렬 및 제2 호모그래피 행렬을 도출하는 단계, 및 상기 제1 호모그래피 행렬 및 상기 제2 호모그래피 행렬 중 표적 검출 성공률이 더 높은 호모그래피 행렬을 선택하는 단계를 포함하는 것을 특징으로 한다.

상기 제1 호모그래피 도출 방식은, 동적 객체의 특징점을 제외한 정적 객체의 특징점 매칭을 기반으로 상기 호모그래피 행렬을 도출하는 방법인 것을 특징으로 한다.

상기 제2 호모그래피 도출 방식은, 비지도 학습 기반 호모그래피 도출 네트워크를 이용하여 상기 호모그래피 행렬을 도출하는 방법인 것을 특징으로 한다.

상기 호모그래피 행렬을 도출하는 단계는, 미리 정해진 검증 조건에 기반하여 상기 호모그래피 행렬을 검증하는 단계를 더 포함하는 것을 특징으로 한다.

상기 호모그래피 행렬을 검증하는 단계는, 상기 호모그래피 행렬

이 미리 정해진 조건도 만족하지 않는 경우 검증 통과를 결정하는 단계 및 상기 호모그래피 행렬

이 미리 정해진 조건을 만족하는 경우 검증 미통과를 결정하는 단계를 포함하는 것을 특징으로 한다.

카메라가 움직이는 상황에서 샘플링된 영상들과 초기 학습 데이터를 기반으로 호모그래피 도출 네트워크를 학습하는 단계를 더 포함하는 것을 특징으로 한다.

상기 제1 영상을 수신하는 단계는, 미리 정해진 배율로 상기 제1 영상을 스케일링하는 단계를 포함하는 것을 특징으로 한다.

상기 호모그래피 행렬을 도출하는 단계는, 상기 스케일링을 고려하여 상기 호모그래피 행렬을 도출하는 단계를 포함하는 것을 특징으로 한다.

본 발명의 실시 예들에 따른 객체 추적 장치는 카메라 및 상기 카메라와 연결되는 프로세서를 포함하고, 상기 프로세서는, 상기 카메라로부터 t시점의 제1 영상을 수신하고, 상기 제1 영상 및 t-1 시점의 제2 영상을 기반으로 호모그래피 행렬을 도출하고, 상기 호모그래피 행렬을 이용하여 상기 제2 영상에서 검출된 제1 객체의 위치를 보정하고, 상기 제1 영상에서 상기 제1 객체와 매칭되는 제2 객체를 검출하고, 상기 제1 객체의 보정된 위치를 기반으로 상기 제2 객체의 위치 변화를 추적하는 것을 특징으로 한다.

상기 프로세서는, 제1 호모그래피 도출 방식 또는 제2 호모그래피 도출 방식을 이용하여 상기 호모그래피 행렬을 도출하는 것을 특징으로 한다.

상기 프로세서는, 제1 호모그래피 도출 방식 및 제2 호모그래피 도출 방식을 이용하여 제1 호모그래피 행렬 및 제2 호모그래피 행렬을 도출하고, 상기 제1 호모그래피 행렬 및 상기 제2 호모그래피 행렬 중 표적 검출 성공률이 더 높은 호모그래피 행렬을 선택하는 것을 특징으로 한다.

상기 프로세서는, 미리 정해진 검증 조건에 기반하여 상기 호모그래피 행렬을 검증하는 것을 특징으로 한다.

상기 프로세서는, 상기 호모그래피 행렬

이 미리 정해진 조건도 만족하지 않는 경우 검증 통과를 결정하고, 상기 호모그래피 행렬

이 미리 정해진 조건을 만족하는 경우 검증 미통과를 결정하는 것을 특징으로 한다.

상기 프로세서는, 상기 카메라가 움직이는 상황에서 샘플링된 영상들과 초기 학습 데이터를 기반으로 호모그래피 도출 네트워크를 학습하는 것을 특징으로 한다.

상기 프로세서는, 미리 정해진 배율로 상기 카메라에 의해 획득되는 영상을 스케일링하는 것을 특징으로 한다.

상기 프로세서는, 상기 스케일링을 고려하여 상기 호모그래피 행렬을 도출하는 것을 특징으로 한다.

본 발명에 따르면, RGB 영상만을 이용하여 카메라 움직임을 상쇄함으로써 객체의 위치를 보정할 수 있다.

또한, 본 발명에 따르면, 별도의 센서 정보를 활용하지 않기 때문에 시스템 구성을 간소화할 수 있으며 센서 동기화 문제에서도 자유로울 수 있다.

또한, 본 발명에 따르면, 영상만을 이용하여 3차원 공간 상의 선형 이동을 추정할 수 있다.

도 1은 본 발명의 실시 예들에 따른 객체 추적 장치를 도시한 블록구성도이다.
도 2a는 본 발명의 실시 예들에 따른 카메라 움직임에 따른 객체 위치 왜곡을 도시한 예시도이다.
도 2b는 본 발명의 실시 예들에 따른 객체 위치 보정을 설명하기 위한 도면이다.
도 2c는 본 발명의 실시 예들에 따른 객체 추적을 설명하기 위한 도면이다.
도 3a 및 도 3b는 본 발명의 실시 예들에 따른 특징점 매칭 기반 호모그래피 도출 방식을 설명하기 위한 도면이다.
도 4는 본 발명의 실시 예들에 따른 호모그래피 도출 네트워크 학습 방법을 도시한 흐름도이다.
도 5a는 본 발명의 실시 예들에 따른 호모그래피 도출 네트워크 학습 과정을 설명하기 위한 도면이다.
도 5b는 본 발명의 실시 예들에 따른 딥러닝 기반 호모그래피 도출 방식을 설명하기 위한 도면이다.
도 6은 본 발명의 실시 예들에 따른 호모그래피를 이용한 객체 상태 보정을 설명하기 위한 도면이다.
도 7은 본 발명의 실시 예들에 따른 객체 추적 과정을 도시한 흐름도이다.
도 8은 본 발명의 실시 예들에 따른 객체 추적 방법을 도시한 흐름도이다.
도 9는 본 발명의 실시 예들에 따른 객체 추적 방법을 실행하는 컴퓨팅 시스템을 보여주는 블록도이다.

이하, 본 발명의 일부 실시 예들을 예시적인 도면을 통해 상세하게 설명한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명의 실시 예를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 실시 예에 대한 이해를 방해한다고 판단되는 경우에는 그 상세한 설명은 생략한다.

본 발명의 실시 예의 구성 요소를 설명하는 데 있어서, 제 1, 제 2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 또한, 다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가진 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

본 발명의 실시 예들은 특징점 매칭 기반 호모그래피(homography) 도출 방식 또는 비지도 학습의 딥러닝 기반 호모그래피 도출 방식을 사용하여 객체 위치를 보정함으로써 추적 성능을 높이고 객체의 움직임에서 카메라 움직임(camera motion)을 상쇄하여 정확한 객체 움직임을 모델링하는 기술을 제시할 수 있다.

도 1은 본 발명의 실시 예들에 따른 객체 추적 장치를 도시한 블록구성도이다.

객체 추적 장치(100)는 연산이 가능한 컴퓨팅 장치일 수 있다. 예를 들어, 객체 추적 장치(100)는 스마트폰, 로봇, 차량 및/또는 이동장치(mobility device) 등에 탑재될 수 있다.

도 1을 참조하면, 객체 추적 장치(100)는 카메라(110), 메모리(120) 및 프로세서(130)를 포함할 수 있다.

카메라(110)는 영상(이미지)을 촬영할 수 있다. 여기서, 영상은 비디오 영상의 한 프레임(frame)을 의미할 수 있다. 카메라(110)는 RGB(Red, Green, Blue) 카메라로, 컬러 정보를 획득할 수 있다. 카메라(110)는 RGB 영상을 취득할 수 있다. 카메라(110)는 객체 추적 장치(100)의 선형 및/또는 회전 등의 이동으로 인해 움직임이 발생할 수 있다. 또한, 카메라(110)는 별도의 구동장치에 의해 움직임이 발생할 수도 있다.

카메라(110)는 CCD(charge coupled device) 이미지 센서, CMOS(complementary metal oxide semi-conductor) 이미지 센서, CPD(charge priming device) 이미지 센서 및/또는 CID(charge injection device) 이미지 센서 등과 같은 이미지 센서들 중 적어도 하나를 포함할 수 있다. 카메라(110)는 이미지 센서에 의해 획득(취득)되는 이미지(영상)에 대한 노이즈(noise) 제거, 컬러 재현, 파일 압축, 화질 조절 및/또는 채도 조절 등의 이미지 처리를 수행하는 이미지 프로세서를 포함할 수 있다.

메모리(120)는 특징점 매칭 기반 호모그래피 추출 알고리즘, 딥러닝 기반 호모그래피 추출 알고리즘, 및/또는 객체 추적 알고리즘 등을 저장할 수 있다. 메모리(120)는 학습 데이터 및 비지도 학습 알고리즘 등을 저장할 수 있다. 메모리(120)는 프로세서(130)에 의해 실행되는 명령어들(instructions)을 저장하는 저장매체(non-transitory storage medium)일 수 있다. 메모리(120)는 플래시 메모리(flash memory), 하드디스크(hard disk), SSD(Solid State Disk), SD 카드(Secure Digital Card), RAM(Random Access Memory), SRAM(Static Random Access Memory), ROM(Read Only Memory), PROM(Programmable Read Only Memory), EEPROM(Electrically Erasable and Programmable ROM), EPROM(Erasable and Programmable ROM), eMMC(embedded multimedia card) 및/또는 UFS(universal flash storage) 등과 같은 저장매체 중 적어도 하나를 포함할 수 있다.

프로세서(130)는 객체 추적 장치(100)의 전반적인 동작을 제어할 수 있다. 프로세서(130)는 ASIC(Application Specific Integrated Circuit), DSP(Digital Signal Processor), PLD(Programmable Logic Devices), FPGAs(Field Programmable Gate Arrays), CPU(Central Processing unit), 마이크로컨트롤러(microcontrollers) 및/또는 마이크로프로세서(microprocessors) 등의 처리장치 중 적어도 하나를 포함할 수 있다.

프로세서(130)는 카메라(110)를 이용하여 영상(이미지)을 획득할 수 있다. 카메라(110)는 RGB 영상을 취득하여 프로세서(130)에 전송할 수 있다. 프로세서(130)는 카메라(110)로부터 입력(수신)되는 원본 영상을 미리 정해진 배율로 스케일링(크기 변환)할 수 있다.

프로세서(130)는 카메라(110)에 의해 획득된 영상들 예컨대, 현재 영상과 이전 영상을 이용하여 호모그래피(또는 호모그래피 행렬)를 계산할 수 있다. 여기서, 각 영상은 스케일링된 영상임을 전제로 한다. 프로세서(130)는 특징점 매칭 기반 호모그래피 도출 방식 및/또는 딥러닝 기반 호모그래피 도출 방식 중 적어도 하나를 이용하여 호모그래피 행렬 H을 산출할 수 있다. 일 예로, 프로세서(130)는 사전에 사용자에 의해 선택된 호모그래피 도출 방식을 이용하여 현재 영상과 이전 영상으로부터 호모그래피 행렬을 계산할 수 있다.

다른 일 예로, 프로세서(130)는 특징점 매칭 기반 호모그래피 도출 방식 및 딥러닝 기반 호모그래피 도출 방식을 이용하여 제1 호모그래피 행렬 및 제2 호모그래피 행렬을 각각 계산할 수 있다. 이후, 프로세서(130)는 호모그래피 검증 과정을 거치면서 제1 호모그래피 행렬 및 제2 호모그래피 행렬 중 표적 검출 성공률(target detection matching rate)이 더 높은 호모그래피 행렬을 선택할 수 있다.

프로세서(130)는 미리 정해진 검증 조건에 기반하여 계산된 호모그래피를 검증할 수 있다. 프로세서(130)는 호모그래피 행렬

이 미리 정해진 검증 조건 중 적어도 하나의 조건에 해당하는 경우, 검증 미통과(검증 실패)를 결정할 수 있다. 프로세서(130)는 호모그래피 행렬 H이 미리 정해진 검증 조건 중 어느 하나에도 해당하지 않는 경우, 검증 통과(검증 성공)를 결정할 수 있다.

[검증 조건]

1)

2)

3)

4)

5)

6)

여기서, τ_xmin 및 τ_xmax는 호모그래피 행렬의 x 스케일링에 대한　최소 및 최대 한계치이고, τ_ymax 및 τ_ymax는 호모그래피 행렬의 y 스케일링에 대한　최소 및 최대 한계치이고, τ_pers는 호모그래피의 원근 변화에 대한 한계치이다. 예를 들어, τ_xmin=0.5, τ_xmax=2.0, τ_ymin=0.5, τ_ymax=2.0 및 τ_pers=0.02로 사전에 설정할 수 있다.

프로세서(130)는 호모그래피 검증을 통과한 호모그래피 행렬 H을 적용하여 영상 내 객체의 상태 정보(예: 위치 및/또는 크기)를 보정할 수 있다. 상태 정보는 객체의 경계 박스(bounding box, bbox)의 중심 좌표 (x, y), 너비(w) 및 높이(h) 등을 포함할 수 있다. 프로세서(130)는 영상 내 추적 중이던 객체가 존재하는 경우에만 추적 중이던 객체의 상태 보정을 진행할 수 있다.

프로세서(130)는 객체 추적 알고리즘을 이용하여 영상에서 객체를 검출하여 추적할 수 있다. 프로세서(130)는 칼만 필터(kalman filter), 선형 모션 모델(linear motion model), 확장 칼만 필터(extended kalman filter), 심플 IoU(Intersection over Union) 추적기, 및/또는 파티클 필터(particle filter) 등의 객체 추적 알고리즘 중 적어도 하나를 이용할 수 있다.

프로세서(130)는 영상에서 추적 중이던 객체와 매칭되는 객체를 검출(탐색)할 수 있다. 프로세서(130)는 추적 중이던 객체의 보정된 위치를 기준으로 검출된 객체의 위치 변화(즉, 이동)를 추적할 수 있다.

프로세서(130)는 통신장치(미도시)를 이용하여 객체 추적 결과를 외부 시스템으로 전송할 수 있다. 외부 시스템은 객체 추적 결과를 활용하여 미리 정해진 특정 서비스를 제공할 수 있다.

도 2a는 본 발명의 실시 예들에 따른 카메라 움직임에 따른 객체 위치 왜곡을 도시한 예시도이고, 도 2b는 본 발명의 실시 예들에 따른 객체 위치 보정을 설명하기 위한 도면이고, 도 2c는 본 발명의 실시 예들에 따른 객체 추적을 설명하기 위한 도면이다.

도 2a를 참조하면, 카메라(110)는 (t-1) 시점에 제1 영상(210)을 촬영하여 프로세서(130)에 전송할 수 있다. 프로세서(130)는 제1 영상(210)에서 제1 객체(211)의 위치를 검출할 수 있다. 이후, 카메라(110)의 움직임이 발생한 상태에서, 카메라(110)는 t 시점의 제2 영상(220)을 촬영하여 프로세서(130)에 전송할 수 있다. 프로세서(130)는 제2 영상(220)에서 제2 객체(221)의 위치를 검출할 수 있다. 이때, 제1 객체(211)의 위치는 실세계에서 제2 객체(221)의 위치와 동일하나, 카메라(110)의 움직임으로 인해 영상 내 객체 위치가 서로 상이하게 검출될 수 있다.

도 2b를 참조하면, 프로세서(130)는 호모그래피 행렬 H을 이용하여 제1 영상(210)에서 검출된 제1 객체(211)의 위치를 보정할 수 있다. 다시 말해서, 프로세서(130)는 호모그래피 행렬을 이용한 위치 보정을 통해 제2 영상(220) 상에 제1 객체(211)의 위치를 구할 수 있다.

도 2c를 참조하면, 프로세서(130)는 위치 보정된 제1 객체(211)를 제2 영상(220)의 제2 객체(221)에 매칭할 수 있다. 프로세서(130)는 제1 객체(211)의 보정된 위치를 기반으로 제2 객체(221)의 위치 변화를 이용하여 객체 움직임을 추정함으로써 객체 추적을 수행할 수 있다.

도 3a 및 도 3b는 본 발명의 실시 예들에 따른 특징점 매칭 기반 호모그래피 도출 방식을 설명하기 위한 도면이다.

먼저, 프로세서(130)는 t 시점의 제1 영상(310)에서 특징점을 추출할 수 있다. 프로세서(130)는 ORB(Oriented and Rotated BRIEF(Binary Robust Independent Elementary Feature)), SIFT(Scale Invariant Feature Transform), SURF(Speeded Up Robust Feature) 및/또는 DNN(Deep Neural Network) 등의 알고리즘을 이용하여 특징점을 추출할 수 있다. 특징점은 픽셀 좌표 정보(x_i, y_i) 및 특징 정보(feature descriptor) 등을 포함할 수 있다.

프로세서(130)는 제1 영상(310)에 대해 시맨틱 세그맨테이션(semantic segmentation)을 수행하여 객체 영역이 세그맨테이션된 제2 영상(320)을 도출할 수 있다. 프로세서(130)는 미리 정의된 객체 클래스(class)에 대한 시맨틱 세그맨테이션을 수행할 수 있다. 미리 정의한 객체 클래스는 보행자, 차량 및/또는 기차 등과 같이 움직이는 객체일 수 있다. 다시 말해서, 프로세서(130)는 미리 정의한 객체 영역에 1을 할당하고 비객체 영역에 0을 할당하여 제2 영상(320)을 도출할 수 있다. 프로세서(130)는 시맨틱 세그멘테이션을 활용하여 영상 내 객체 영역을 인식할 수 있다.

프로세서(130)는 세그멘테이션 영역 즉, 인식된 객체 영역 내 특징점을 필터링할 수 있다. 프로세서(130)는 제1 영상(310)에서 추출된 특징점 중 객체 영역 내 위치하는 특징점을 제외시킬 수 있다.

프로세서(130)는 필터링된 특징점과 (t-1) 시점의 제3 영상(330)에서 추출된 특징점을 매칭할 수 있다. 다시 말해서, 프로세서(130)는 현재 영상의 비객체 영역에서 추출된 특징점과 이전 영상의 비객체 영역에서 추출된 특징점을 매칭할 수 있다. 특징점 매칭에는 브루트 포스(Brute Force), KNN(k-nearest neighbors) 및/또는 FLANN(Fast Library for Approximate Nearest Neighbors) 등의 알고리즘이 사용될 수 있다. 현재 영상의 비객체 영역과 이전 영상의 비객체 영역은 적어도 일부의 영역이 겹칠 수 있다.

프로세서(130)는 매칭된 특징점을 기반으로 호모그래피 행렬 H을 도출할 수 있다. 이때, 프로세서(130)는 RANSAC(RANdom SAmple Consensus), 최소제곱법(least square), 최소메디안(least median), 및/또는 PROSAC(progressive sample consensus) 등의 알고리즘을 이용하여 호모그래피를 추정할 수 있다. 프로세서(130)는 임의로 4개의 특징점 쌍을 선택한 후 호모그래피 행렬 H을 도출할 수 있다. 프로세서(130)는

인 (i, j)의 개수를 카운팅하고, 카운팅된 개수가 가장 높은 경우의 호모그래피 행렬 H를 반환할 수 있다. 여기서, τ는 사전에 정의되는 상수값이다.

본 실시 예에서와 같이, 특징점 매칭 기반 호모그래피 도출 방식은 동적인 객체 영역의 특징점을 필터링하고 정적인 배경 영역의 특징점만을 사용하여 호모그래피 행렬을 도출하므로, 호모그래피 행렬은 카메라 움직임 정보를 포함할 수 있다.

도 4는 본 발명의 실시 예들에 따른 호모그래피 도출 네트워크 학습 방법을 도시한 흐름도이고, 도 5a는 본 발명의 실시 예들에 따른 호모그래피 도출 네트워크 학습 과정을 설명하기 위한 도면이고, 도 5b는 본 발명의 실시 예들에 따른 딥러닝 기반 호모그래피 도출 방식을 설명하기 위한 도면이다.

딥러닝 기반 호모그래피 도출 방식은 독자적인 학습 방식을 이용하여 호모그래피 도출 네트워크에 대해 비지도 학습을 수행할 수 있다. 여기서, 호모그래피 도출 네트워크로는 선행기술문헌에 제시된 '비특허문헌 1'에 소개된 호모그래피 도출 네트워크가 이용될 수 있다. 호모그래피 도출 네트워크 학습은 카메라 움직임이 있는 상황에서 상시 가능하다. 또한, 호모그래피 도출 네트워크 학습은 멀티 스레드(multi-thread) 또는 멀티 프로세스(multi-process) 등의 방식을 이용하여 후술되는 도 8에 도시된 객체 추적 방법과 병렬로 실행될 수 있다.

프로세서(130)는 카메라(110)를 이용하여 영상을 수신할 수 있다(S100). 프로세서(130)는 프레임 레이트(frame rate)을 고려하여 랜덤한 간격으로 이미지(프레임)를 샘플링하여 이미지쌍 예컨대, 타겟 영상과 기준 영상을 추출할 수 있다. 이때, 타겟 영상과 기준 영상은 상이하며, 학습 시 타겟 영상을 선택할 확률이 기준 영상을 선택할 확률보다 크다. 프로세서(130)는 다음 [수학식 1]을 이용하여 이미지쌍 간의 간격(interval)을 랜덤하게 추출할 수 있다.

여기서, f_t는 목표 프레임 레이트이고, f_v는 비디오 프레임 레이트이다. σ는 노이즈(noise) 상수값으로, 프레임 간의 간격 추출 범위를 조절할 수 있다. 프로세서(130)는 σ에 의해 조절된 간격 추출 범위 내에서 랜덤하게 이미지쌍 간의 간격을 결정할 수 있다.

프로세서(130)는 카메라(110)의 움직임이 있는지를 확인할 수 있다(S110). 일 예로, 프로세서(130)는 샘플링된 이미지쌍으로부터 호모그래피 행렬을 계산하여 정규화하고, 정규화된 호모그래피 행렬 H/h₉과 항등 행렬(identity matrix)의 차이가 미리 정해진 기준치 이상이면 카메라(110)가 움직이고 있다고 판단할 수 있다. 다른 일 예로, 프로세서(130)는 카메라(110)가 장착된 플랫폼으로부터 모터의 움직임 정보 예컨대, true 또는 false를 수신 받아 true인 경우 카메라(110)가 움직이고 있다고 판단할 수 있다. 또 다른 일 예로, 프로세서(130)는 모터의 움직임 정보 및 호모그래피 행렬을 복합적으로 이용하여 카메라(110)의 움직임을 판단할 수도 있다.

프로세서(130)는 카메라(110)의 움직임이 있는 경우, 수신된 영상을 큐(queue)에 저장할 수 있다(S120). 큐의 사이즈는 제한적일 수 있다. 큐는 메모리(120) 내에 마련될 수 있다.

프로세서(130)는 큐에 영상이 가득 찼는지를 확인할 수 있다(S130).

프로세서(130)는 큐에 영상이 가득 찬 경우, 큐에 저장된 영상을 이용하여 학습을 진행하고 큐를 비울 수 있다(S140). 도 5a를 참조하면, 프로세서(130)는 큐에 저장된 영상들과 초기 학습 데이터를 이용하여 호모그래피 도출 네트워크를 학습할 수 있다. 프로세서(130)는 학습이 완료되면 큐에 저장된 영상들을 모두 삭제할 수 있다.

프로세서(130)는 큐에 영상이 가득 차지 않은 경우, S100로 되돌아가 영상을 수신할 수 있다.

도 5b를 참조하면, 프로세서(130)는 학습된 호모그래피 도출 네트워크를 이용하여 호모그래피 행렬을 도출할 수 있다. 프로세서(130)는 서로 다른 두 영상 I₁ 및 I₂를 입력받으면, 학습된 네트워크를 이용하여 호모그래피 행렬 H를 도출할 수 있다. 학습된 호모그래피 도출 네트워크는 호모그래피 계산에 방해되는 요소를 자동으로 제거할 수 있다.

또한, 프로세서(130)는 미리 정해진 특정 장소 내에서 카메라 움직임이 있는 경우, 해당 장소에 최적화된 호모그래피 도출 네트워크를 학습할 수 있다. 학습 시 타겟 장소에서 촬영한 영상을 선택할 확률을 상향 조정하여 호모그래피 도출 네트워크를 해당 장소에 최적화할 수 있다. 객체 추적 장치(100)의 이동 공간이 한정되어 있다면, 이동 공간의 배경에 오버피팅(overfitting)되어 더 정확히 추론할 수 있다.

도 6은 본 발명의 실시 예들에 따른 호모그래피를 이용한 객체 상태 보정을 설명하기 위한 도면이다.

프로세서(130)는 스케일링된 두 이미지로부터 호모그래피 행렬 H를 도출할 수 있다. 이때, 프로세서(130)는 이미지의 크기 변환 즉, 이미지 스케일링이 고려된 호모그래피 행렬 H'(=M^-1HM)을 도출할 수 있다. 여기서, M은 크기 변환 행렬로,

로 나타낼 수 있고, s1 및 s2는 각각 가로 및 세로의 배율로, 사전에 시스템 설계자에 의해 설정될 수 있다.

프로세서(130)는 도출된 호모그래피 행렬 H'을 이용하여 기존에 추적 중이던 객체의 경계 박스(bounding box, bbox) p_i를 보정할 수 있다. 이때, 프로세서(130)는 bbox p_i의 4개 꼭지점을 이용하여 보정하는 방법과 bbox p_i의 중심점만 이용하여 보정하는 방법 중 어느 하나를 이용하여 객체의 위치를 보정할 수 있다.

먼저, bbox p_i의 4개 꼭지점을 이용하여 보정하는 방법을 설명한다. 프로세서(130)는 이미지 스케일링이 고려된 호모그래피 행렬 H'을 적용하여 기존 객체의 bbox p_i를 보정하여 보정된 bbox p'_i를 구할 수 있다. 보정된 bbox p'_i는 2D bbox이므로 z 성분을 1로 만들어줄 수 있다. 보정된 bbox p'_i는 박스(사각형) 형상이 아니므로, 프로세서(130)는 보정된 bbox p'_i의 형상을 보정할 수 있다. 프로세서(130)는 보정된 bbox p'_i의 네 꼭지점의 좌표 정보를 이용하여 너비

및 높이

를 산출할 수 있다. 프로세서(130)는 보정된 bbox p'_i의 중심점 p'_c 및 산출된 너비 w' 및 높이 h'를 기반으로 최종 보정된 bbox p"_i의 네 꼭지점

,

및

를 구할 수 있다.

다음, bbox p_i의 중심점만 이용하여 보정하는 방법을 설명한다. 프로세서(130)는 이미지 스케일링이 고려된 호모그래피 행렬 H'을 적용하여 기존 객체의 bbox p_i의 중심점 p_c을 보정할 수 있다. 프로세서(130)는 보정된 bbox p'_i의 중심점 p'_c 및 기존 객체의 bbox p_i의 너비 w 및 높이 h를 기반으로 최종 보정된 bbox p"_i의 네 꼭지점

,

, 및

를 구할 수 있다.

도 7은 본 발명의 실시 예들에 따른 객체 추적 과정을 도시한 흐름도이다.

본 실시 예에서는 칼만 필터(kalman filter)를 이용하는 경우를 예로 들어 설명한다. 칼만 필터에서는 각 객체의 상태를 평균 및 분산으로 표현할 수 있다. 칼만 필터를 이용한 객체 추적 과정은 예측(prediction) 단계(S210), 매칭(matching) 단계(S220), 보정(update) 단계(S230), 및 초기화 및 종료(initialization and termination) 단계(S240)로 이루어질 수 있다.

S210에서, 프로세서(130)는 모션 정보를 기반으로 새로운 프레임(frame) 상의 객체 상태(예: 위치 및 크기 등)를 예측할 수 있다. 다시 말해서, 프로세서(130)는 t-1 시점의 측정값을 토대로 t 시점의 객체의 상태 평균을 예측할 수 있다. 프로세서(130)는 t-1 시점의 측정값을 토대로 t 시점의 상태 분산을 예측(추정)할 수 있다.

S220에서, 프로세서(130)는 예측된 객체 상태와 추적 중이던 객체 상태 간 매칭을 수행할 수 있다. 프로세서(130)는 검출된 객체(bbox)들과 추적 중이던 객체들 간의 IoU(Intersection over Union) 또는 유클리드 거리(euclidean distance)을 계산하고, 계산된 값을 기반으로 헝가리안(hungarian) 알고리즘 또는 탐욕(greedy) 알고리즘으로 두 객체 간의 매칭을 수행할 수 있다.

S230에서, 프로세서(130)는 예측된 객체 상태와 매칭된 객체 상태 간의 차이를 산출할 수 있다. 프로세서(130)는 산출된 차이 및 칼만 게인을 예측된 t 시점의 상태 평균에 반영하여 t 시점의 상태 평균을 업데이트할 수 있다. 또한, 프로세서(130)는 t 시점의 상태 분산도 업데이트할 수 있다.

S240에서, 프로세서(130)는 매칭되는 객체를 찾지 못한 경우, 검출된 객체를 새로운 객체로 초기화하고, 추적 중이던 객체에 대한 추적을 종료할 수 있다.

도 8은 본 발명의 실시 예들에 따른 객체 추적 방법을 도시한 흐름도이다.

도 8을 참조하면, 프로세서(130)는 카메라(110)로부터 t시점의 제1 영상을 수신할 수 있다(S300). 프로세서(130)는 카메라(110)로부터 RGB 영상을 입력 받을 수 있다.

프로세서(130)는 미리 정해진 배율에 기반하여 제1 영상을 스케일링할 수 있다(S310). 프로세서(130)는 카메라(110)로부터 수신되는 원본 영상 I_t을 미리 정해진 배율로 스케일링(축소)할 수 있다. 일 예로, 프로세서(130)는 연산 속도를 빠르게 하기 위하여 해상도가 1920×1080인 원본 영상 I_t을 640×480의 영상 I'_t으로 크기 변환할 수 있다.

프로세서(130)는 스케일링된 제1 영상과 (t-1)시점의 제2 영상을 이용하여 호모그래피를 계산할 수 있다(S320). 제2 영상은 미리 정해진 배율에 기반하여 스케일링된 영상일 수 있다. 프로세서(130)는 특징점 매칭 기반 호모그래피 도출 방식(제1 호모그래피 도출 방식) 또는 딥러닝 기반 호모그래피 도출 방식(제2 호모그래피 도출 방식) 중 적어도 하나를 이용하여 호모그래피 행렬 H을 도출할 수 있다. 일 예로, 프로세서(130)는 사전에 사용자에 의해 선택된 호모그래피 도출 방식을 이용하여 현재 영상과 이전 영상으로부터 호모그래피 행렬을 계산할 수 있다. 다른 일 예로, 프로세서(130)는 특징점 매칭 기반 호모그래피 도출 방식 및 딥러닝 기반 호모그래피 도출 방식을 이용하여 제1 호모그래피 행렬 및 제2 호모그래피 행렬을 각각 계산할 수 있다. 이후, 프로세서(130)는 호모그래피 검증 과정을 거치면서 제1 호모그래피 행렬 및 제2 호모그래피 행렬 중 표적 검출 성공률이 더 높은 호모그래피 행렬을 선택할 수 있다.

프로세서(130)는 미리 정해진 검증 조건에 기반하여 계산된 호모그래피를 검증할 수 있다(S330). 프로세서(130)는 호모그래피 행렬

이 미리 정해진 검증 조건

,

, 및

중 적어도 하나의 조건에 해당하는 경우, 검증 미통과를 결정할 수 있다. 프로세서(130)는 호모그래피 행렬 H이

,

, 및

중 어느 하나에도 해당하지 않는 경우, 검증 통과를 결정할 수 있다.

프로세서(130)는 호모그래피 검증을 통과했는지를 확인할 수 있다(S340).

프로세서(130)는 검증 통과한 호모그래피를 이용하여 추적 중이던 객체의 위치를 보정할 수 있다(S350). 프로세서(130)는 검증 통과한 호모그래피 행렬을 이용하여 제2 영상에서 검출된 객체(제1 객체) 즉, 추적 중이던 객체의 위치를 보정할 수 있다. 다시 말해서, 프로세서(130)는 (t-1)시점의 객체 추적 결과에 기반하여 t시점의 객체의 상태를 예측하고, 호모그래피 행렬을 이용하여 예측된 객체의 상태를 보정할 수 있다.

프로세서(130)는 제1 영상에서 객체(제2 객체)를 검출할 수 있다(S360). 프로세서(130)는 S340에서 검증 미통과 시도 제1 영상에서 객체를 검출할 수 있다.

프로세서(130)는 제1 영상에서 검출된 객체와 위치 보정된 객체를 매칭할 수 있다(S370). 프로세서(130)는 제1 영상에서 추적 중이던 제1 객체와 매칭되는 제2 객체를 탐색할 수 있다.

프로세서(130)는 매칭된 객체의 위치 변화를 추적할 수 있다(S380). 프로세서(130)는 추적 중이던 제1 객체의 보정된 위치를 기반으로 매칭된 제2 객체를 추적할 수 있다. 이때, 프로세서(130)는 칼만 필터 기반 추적기(tracker)를 이용하여 객체를 추적할 수 있다.

상기한 실시 예에서는 카메라(110)의 움직임에 따른 추적 중이던 객체의 상태를 예측한 후 칼만 필터 또는 선형 모션 알고리즘을 이용하여 예측된 객체 상태를 보정하는 것을 예로 들어 설명하고 있으나, 이에 한정되지 않고 카메라(110)의 움직임에 따른 추적 중이던 객체의 상태 예측 전에 칼만 필터 또는 선형 모션 알고리즘을 이용하여 객체 상태를 보정하도록 구현할 수도 있다. 또한, 카메라(110)의 움직임에 따른 추적 중이던 객체의 상태 예측을 수행하지 않고 심플 IoU 매칭 알고리즘을 이용하여 객체 상태 보정을 수행하도록 구현할 수도 있다.

도 9는 본 발명의 실시 예들에 따른 객체 추적 방법을 실행하는 컴퓨팅 시스템을 보여주는 블록도이다.

도 9를 참조하면, 컴퓨팅 시스템(1000)은 버스(1200)를 통해 연결되는 적어도 하나의 프로세서(1100), 메모리(1300), 사용자 인터페이스 입력 장치(1400), 사용자 인터페이스 출력 장치(1500), 스토리지(1600), 및 네트워크 인터페이스(1700)를 포함할 수 있다.

프로세서(1100)는 중앙 처리 장치(CPU) 또는 메모리(1300) 및/또는 스토리지(1600)에 저장된 명령어들에 대한 처리를 실행하는 반도체 장치일 수 있다. 메모리(1300) 및 스토리지(1600)는 다양한 종류의 휘발성 또는 비휘발성 저장 매체를 포함할 수 있다. 예를 들어, 메모리(1300)는 ROM(Read Only Memory)(1310) 및 RAM(Random Access Memory)(1320)을 포함할 수 있다.

따라서, 본 명세서에 개시된 실시 예들과 관련하여 설명된 방법 또는 알고리즘의 단계는 프로세서(1100)에 의해 실행되는 하드웨어, 소프트웨어 모듈, 또는 그 2 개의 결합으로 직접 구현될 수 있다. 소프트웨어 모듈은 RAM 메모리, 플래시 메모리, ROM 메모리, EPROM 메모리, EEPROM 메모리, 레지스터, 하드 디스크, 착탈형 디스크, CD-ROM과 같은 저장 매체(즉, 메모리(1300) 및/또는 스토리지(1600))에 상주할 수도 있다. 예시적인 저장 매체는 프로세서(1100)에 커플링되며, 그 프로세서(1100)는 저장 매체로부터 정보를 판독할 수 있고 저장 매체에 정보를 기입할 수 있다. 다른 방법으로, 저장 매체는 프로세서(1100)와 일체형일 수도 있다. 프로세서(1100) 및 저장 매체는 주문형 집적회로(ASIC) 내에 상주할 수도 있다. ASIC는 사용자 단말기 내에 상주할 수도 있다. 다른 방법으로, 프로세서(1100) 및 저장 매체는 사용자 단말기 내에 개별 컴포넌트로서 상주할 수도 있다.

이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명에 개시된 실시 예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시 예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims

카메라로부터 t시점의 제1 영상을 수신하는 단계;
상기 제1 영상 및 t-1 시점의 제2 영상을 기반으로 호모그래피 행렬을 도출하는 단계;
상기 호모그래피 행렬을 이용하여 상기 제2 영상에서 검출된 제1 객체의 위치를 보정하는 단계;
상기 제1 영상에서 상기 제1 객체와 매칭되는 제2 객체를 검출하는 단계; 및
상기 제1 객체의 보정된 위치를 기반으로 상기 제2 객체의 위치 변화를 추적하는 단계를 포함하는 것을 특징으로 하는 객체 추적 방법.
청구항 1에 있어서,
상기 호모그래피 행렬을 도출하는 단계는,
제1 호모그래피 도출 방식 또는 제2 호모그래피 도출 방식을 이용하여 상기 호모그래피 행렬을 도출하는 단계를 포함하는 것을 특징으로 하는 객체 추적 방법.
청구항 1에 있어서,
상기 호모그래피 행렬을 도출하는 단계는,
제1 호모그래피 도출 방식 및 제2 호모그래피 도출 방식을 이용하여 제1 호모그래피 행렬 및 제2 호모그래피 행렬을 도출하는 단계; 및
상기 제1 호모그래피 행렬 및 상기 제2 호모그래피 행렬 중 표적 검출 성공률이 더 높은 호모그래피 행렬을 선택하는 단계를 포함하는 것을 특징으로 하는 객체 추적 방법.
청구항 3에 있어서,
상기 제1 호모그래피 도출 방식은,
동적 객체의 특징점을 제외한 정적 객체의 특징점 매칭을 기반으로 상기 호모그래피 행렬을 도출하는 방법인 것을 특징으로 하는 객체 추적 방법.
청구항 3에 있어서,
상기 제2 호모그래피 도출 방식은,
비지도 학습 기반 호모그래피 도출 네트워크를 이용하여 상기 호모그래피 행렬을 도출하는 방법인 것을 특징으로 하는 객체 추적 방법.
청구항 1에 있어서,
상기 호모그래피 행렬을 도출하는 단계는,
미리 정해진 검증 조건에 기반하여 상기 호모그래피 행렬을 검증하는 단계를 더 포함하는 것을 특징으로 하는 객체 추적 방법.
청구항 6에 있어서,
상기 호모그래피 행렬을 검증하는 단계는,
상기 호모그래피 행렬
이 미리 정해진 검증 조건을 만족하지 않는 경우 검증 통과를 결정하는 단계; 및
상기 호모그래피 행렬
이 미리 정해진 검증 조건을 만족하는 경우 검증 미통과를 결정하는 단계를 포함하는 것을 특징으로 하는 객체 추적 방법.
청구항 1에 있어서,
카메라가 움직이는 상황에서 샘플링된 영상들과 초기 학습 데이터를 기반으로 호모그래피 도출 네트워크를 학습하는 단계를 더 포함하는 것을 특징으로 하는 객체 추적 방법.
청구항 1에 있어서,
상기 제1 영상을 수신하는 단계는,
미리 정해진 배율로 상기 제1 영상을 스케일링하는 단계를 포함하는 것을 특징으로 하는 객체 추적 방법.
청구항 9에 있어서,
상기 호모그래피 행렬을 도출하는 단계는,
상기 스케일링을 고려하여 상기 호모그래피 행렬을 도출하는 단계를 포함하는 것을 특징으로 하는 객체 추적 방법.
카메라; 및
상기 카메라와 연결되는 프로세서를 포함하고,
상기 프로세서는,
상기 카메라로부터 t시점의 제1 영상을 수신하고,
상기 제1 영상 및 t-1 시점의 제2 영상을 기반으로 호모그래피 행렬을 도출하고,
상기 호모그래피 행렬을 이용하여 상기 제2 영상에서 검출된 제1 객체의 위치를 보정하고,
상기 제1 영상에서 상기 제1 객체와 매칭되는 제2 객체를 검출하고,
상기 제1 객체의 보정된 위치를 기반으로 상기 제2 객체의 위치 변화를 추적하는 것을 특징으로 하는 객체 추적 장치.
청구항 11에 있어서,
상기 프로세서는,
제1 호모그래피 도출 방식 또는 제2 호모그래피 도출 방식을 이용하여 상기 호모그래피 행렬을 도출하는 것을 특징으로 하는 객체 추적 장치.
청구항 11에 있어서,
상기 프로세서는,
제1 호모그래피 도출 방식 및 제2 호모그래피 도출 방식을 이용하여 제1 호모그래피 행렬 및 제2 호모그래피 행렬을 도출하고,
상기 제1 호모그래피 행렬 및 상기 제2 호모그래피 행렬 중 표적 검출 성공률이 더 높은 호모그래피 행렬을 선택하는 것을 특징으로 하는 객체 추적 장치.
청구항 13에 있어서,
상기 제1 호모그래피 도출 방식은,
동적 객체의 특징점을 제외한 정적 객체의 특징점 매칭을 기반으로 상기 호모그래피 행렬을 도출하는 방법인 것을 특징으로 하는 객체 추적 장치.
청구항 13에 있어서,
상기 제2 호모그래피 도출 방식은,
비지도 학습 기반 호모그래피 도출 네트워크를 이용하여 상기 호모그래피 행렬을 도출하는 방법인 것을 특징으로 하는 객체 추적 장치.
청구항 11에 있어서,
상기 프로세서는,
미리 정해진 검증 조건에 기반하여 상기 호모그래피 행렬을 검증하는 것을 특징으로 하는 객체 추적 장치.
청구항 16에 있어서,
상기 프로세서는,
상기 호모그래피 행렬
이 미리 정해진 조건도 만족하지 않는 경우 검증 통과를 결정하고, 상기 호모그래피 행렬
이 미리 정해진 조건을 만족하는 경우 검증 미통과를 결정하는 것을 특징으로 하는 객체 추적 장치.
청구항 11에 있어서,
상기 프로세서는,
상기 카메라가 움직이는 상황에서 샘플링된 영상들과 초기 학습 데이터를 기반으로 호모그래피 도출 네트워크를 학습하는 것을 특징으로 하는 객체 추적 장치.
청구항 11에 있어서,
상기 프로세서는,
미리 정해진 배율로 상기 카메라에 의해 획득되는 영상을 스케일링하는 것을 특징으로 하는 객체 추적 장치.
청구항 19에 있어서,
상기 프로세서는,
상기 스케일링을 고려하여 상기 호모그래피 행렬을 도출하는 것을 특징으로 하는 객체 추적 장치.