KR20180069312A - 라이트 필드 동영상을 이용한 물체 추적 방법 및 장치 - Google Patents

라이트 필드 동영상을 이용한 물체 추적 방법 및 장치 Download PDF

Info

Publication number
KR20180069312A
KR20180069312A KR1020160171391A KR20160171391A KR20180069312A KR 20180069312 A KR20180069312 A KR 20180069312A KR 1020160171391 A KR1020160171391 A KR 1020160171391A KR 20160171391 A KR20160171391 A KR 20160171391A KR 20180069312 A KR20180069312 A KR 20180069312A
Authority
KR
South Korea
Prior art keywords
light field
frame
target object
region
image
Prior art date
Application number
KR1020160171391A
Other languages
English (en)
Inventor
김재우
김도형
박성진
배성준
김진서
손욱호
장호욱
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020160171391A priority Critical patent/KR20180069312A/ko
Publication of KR20180069312A publication Critical patent/KR20180069312A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/215Motion-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10052Images from lightfield camera

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Studio Devices (AREA)

Abstract

라이트 필드 영상을 이용한 물체 추적 방법 및 장치가 개시된다. 라이트 필드 영상을 이용한 물체 추적 방법은 라이트 필드 영상(light field video)으로부터 라이트 필드 영상 시퀀스를 생성하고, 라이트 필드 데이터를 획득하는 단계, 상기 라이트 필드 영상 시퀀스의 제1 프레임에서 객체 영역(object region)을 지정하는 단계, 지정된 객체 영역을 기초로 기계학습(machine learning)을 통하여 객체 모델(object model)을 생성하는 단계, 상기 객체 모델을 기초로, 상기 제1 프레임 이후의 제2 프레임에서 타겟 객체의 영역을 결정하는 단계 및 결정된 타겟 객체의 영역을 이용하여 상기 타겟 객체를 추적하는 단계를 포함한다. 따라서, 추적하려는 물체가 상당 부분 가려진 경우에도 가려진 물체를 제거하여 추적할 수 있다.

Description

라이트 필드 동영상을 이용한 물체 추적 방법 및 장치{METHOD FOR TRACKING OF OBJECT USING LIGHT FIELD VIDEO AND APPARATUS THEREOF}
본 발명은 라이트 필드 동영상을 이용한 물체 추적 방법 및 장치에 관한 것으로, 더욱 상세하게는 라이트 필드 동영상으로부터 획득된 뎁스 맵, 다초점 영상 및 다시점 영상으로부터 추출된 정보를 이용하여 물체를 추적하는 방법 및 장치에 관한 것이다.
컴퓨터 기술의 발달로 최근에는 단순하고 반복적인 업무를 인간 대신에 수행하는 각종 장치가 다수 연구되고 있다.
인간의 업무를 대체하는 데 있어서 가장 중요한 요소 중에 하나는 사람의 시각 인지 능력을 대체하는 것에 있다. 그 중 하나의 예로서, CCTV에서 촬영한 정보를 이용하여 사람을 감시하는 업무를 컴퓨터가 대신하는 경우 사람을 영상에서 추적하고 인식하는 기능이 필수적으로 구현되어야 한다.
이와 같이 영상에서 물체를 인식하고 추적하는 기술은 영상의 이미지 프레임에서 추적하고자 하는 물체의 위치를 지정하면, 해당 위치에서 물체가 갖는 특징을 추출하여 물체 영역과 배경 영역으로 구분하고, 물체 영역의 위치를 추적함으로써 이루어지는 것이 일반적이다.
그러나, 종래의 이와 같은 물체 추적 기술은 2차원 영상을 기초로 하는 까닭에 물체를 추적하는 데 어려움이 있다.
예를 들면, 물체가 움직이면서 물체의 시각적 형태가 변형되는 경우 형태 변화 때문에 물체를 감지하지 못하는 문제점이 있다.
또한, 물체의 형태는 변하지 않더라도 조명이 변화할 경우, 해당 영상에서 보여지는 물체의 특징이 변화하므로 물체를 감지하지 못하는 문제점이 있다.
또한, 물체를 촬영한 카메라의 시점이 변화함에 따라 시점 방향에 따른 물체의 형태가 변경되는 문제점이 있다.
또한, 영상에 따라서는 추적하고자 하는 물체가 다른 문체에 가려지게 될 수도 있고, 배경 부분이 복잡하거나 배경과 추적하는 물체 사이의 유사성이 높아서 배경의 일부를 물체로 오인하는 문제점이 있다.
한편, 최근 3차원 디스플레이가 발전함에 따라 많은 연구가 진행되고 있는데 그중 하나가 라이트 필드(light field) 디스플레이에 관한 것이다.
라이트 필드는 3차원 공간 상의 모든 점에서 모든 방향으로 빛이 얼마만큼의 세기를 가지는지를 표현하는 장(field)이라고 할 수 있는데, 실제 공간에서 물체를 묘사하는데 아주 적합할 수 있다.
따라서, 3차원 영상을 실공간에 표현하는 방법의 하나로서 라이트 필드 영상이 이용될 수 있고, 라이트 필드 영상을 활용하면, 3차원 공간의 데이터를 이용할 수 있는 특징이 있다.
상기와 같은 문제점을 해결하기 위한 본 발명의 목적은, 라이트 필드 영상을 이용한 물체 추적 방법을 제공하는데 있다.
상기와 같은 문제점을 해결하기 위한 본 발명의 다른 목적은, 라이트 필드 영상을 이용한 물체 추적 장치를 제공하는데 있다.
상기 목적을 달성하기 위한 본 발명은, 라이트 필드 영상을 이용한 물체 추적 방법을 제공한다.
여기에서, 라이트 필드 영상을 이용한 물체 추적 방법은, 라이트 필드 영상(light field video)으로부터 라이트 필드 영상 시퀀스를 생성하고, 라이트 필드 데이터를 획득하는 단계, 라이트 필드 영상 시퀀스의 제1 프레임에서 객체 영역(object region)을 지정하는 단계, 지정된 객체 영역을 기초로 기계학습(machine learning)을 통하여 객체 모델(object model)을 생성하는 단계, 객체 모델을 기초로, 제1 프레임 이후의 제2 프레임에서 타겟 객체의 영역을 결정하는 단계 및 결정된 타겟 객체의 영역을 이용하여 타겟 객체를 추적하는 단계를 포함한다.
여기서, 라이트 필드 데이터는, 라이트 필드 영상 시퀀스로부터 깊이 정보를 계산하여 생성된 뎁스 맵(depth map)을 포함할 수 있다.
여기서, 라이트 필드 데이터는, 라이트 필드 영상으로부터 초점을 재조절함으로써, 하나의 장면에 대하여 초점 거리가 서로 다른 다수의 이미지로 구성된 포컬 스택(focul stack)을 포함할 수 있다.
여기서, 라이트 필드 데이터는, 라이트 필드 영상으로부터 획득되고, 하나의 장면에 대하여 서로 다른 시점에서의 이미지로 구성된 다시점 영상(multi-view image)을 포함할 수 있다.
여기서, 제1 프레임에서 객체 영역을 지정하는 단계는, 라이트 필드 데이터에 포함된 다시점 영상 중에서 제1 프레임과 상응하는 다시점 영상을 이용하여 서로 다른 시점으로 이루어진 이미지 각각에 대하여 객체 영역을 지정하는 단계를 포함할 수 있다.
여기서, 다시점 영상은, 라이트 필드 영상을 촬영한 카메라어레이 각각의 시점뿐만 아니라 각각의 시점에서 획득한 이미지들을 뷰 인터폴레이션(view interpolation)하여 생성된 임의의 시점에 대한 이미지들을 포함할 수 있다.
여기서, 제2 프레임에서 타겟 객체의 영역을 결정하는 단계는, 제1 프레임 이후의 제2 프레임에서 객체 모델을 기초로 타겟 객체의 위치를 결정하는 단계 및 결정된 타겟 객체의 위치를 기초로 제2 프레임에서 타겟 객체의 영역을 결정하는 단계를 포함할 수 있다.
여기서, 제2 프레임에서 타겟 객체의 영역을 결정하는 단계는, 제2 프레임에 상응하는 뎁스 맵을 이용하여 타겟 객체의 후보 영역을 선정하는 단계 및 선정된 후보 영역 중에서 타겟 객체의 영역을 결정하는 단계를 포함할 수 있다.
여기서, 뎁스 맵을 이용하여 타겟 객체의 후보 영역을 선정하는 단계는, 뎁스 맵에서의 깊이 값에 대하여 미리 설정된 임계값을 중심으로 배경 영역과 객체 영역을 분리하여, 분리된 객체 영역을 타겟 객체의 후보 영역으로 선정할 수 있다.
여기서, 제2 프레임에서 타겟 객체의 영역을 결정하는 단계는, 라이트 필드 데이터에 포함된 다초점 영상 중에서 제2 프레임과 상응하는 다초점 영상을 이용하여 서로 다른 초점으로 이루어진 이미지 각각에 대하여 타겟 객체의 영역을 결정할 수 있다.
상기 다른 목적을 달성하기 위한 본 발명의 다른 측면은, 라이트 필드 영상을 이용한 물체 추적 장치를 제공한다.
여기서, 라이트 필드 영상을 이용한 물체 추적 장치는 적어도 하나의 명령을 실행하는 프로세서(processor) 및 적어도 하나의 명령을 저장하는 메모리(memory)를 포함한다.
여기서 프로세서는, 라이트 필드 영상(light field video)으로부터 라이트 필드 영상 시퀀스를 생성하고, 라이트 필드 데이터를 획득하며, 라이트 필드 영상 시퀀스의 제1 프레임에서 객체 영역(object region)을 지정하고, 지정된 객체 영역을 기초로 기계학습(machine learning)을 통하여 객체 모델(object model)을 생성하고, 객체 모델을 기초로, 제1 프레임 이후의 제2 프레임에서 타겟 객체의 영역을 결정하고, 결정된 타겟 객체의 영역을 이용하여 타겟 객체를 추적할 수 있다.
여기서, 라이트 필드 데이터는, 라이트 필드 영상 시퀀스로부터 깊이 정보를 계산하여 생성된 뎁스 맵(depth map)을 포함할 수 있다.
여기서, 라이트 필드 데이터는, 라이트 필드 영상으로부터 하나의 장면에 대하여 초점 거리가 서로 다른 다수의 이미지로 구성된 포컬 스택(focul stack)을 포함할 수 있다.
여기서, 라이트 필드 데이터는, 라이트 필드 영상으로부터 하나의 장면에 대하여 서로 다른 시점에서의 이미지로 구성된 다시점 영상(multi-view image)을 포함할 수 있다.
여기서, 프로세서는, 라이트 필드 데이터에 포함된 다시점 영상 중에서 제1 프레임과 상응하는 다시점 영상을 이용하여 서로 다른 시점으로 이루어진 이미지 각각에 대하여 객체 영역을 지정할 수 있다.
여기서, 다시점 영상은, 라이트 필드 영상을 촬영한 카메라어레이 각각의 시점뿐만 아니라 각각의 시점에서 획득한 이미지들을 뷰 인터폴레이션(vew interpolation)하여 생성된 임의의 시점에 대한 이미지들을 포함할 수 있다.
여기서. 프로세서는, 제1 프레임 이후의 제2 프레임에서 객체 모델을 기초로 타겟 객체의 위치를 결정하는 단계 및 결정된 타겟 객체의 위치를 기초로 제2 프레임에서 타겟 객체의 영역을 결정할 수 있다.
여기서, 프로세서는, 제2 프레임에 상응하는 뎁스 맵을 이용하여 타겟 객체의 후보 영역을 선정하고, 선정된 후보 영역 중에서 타겟 객체의 영역을 결정할 수 있다.
여기서, 프로세서는, 뎁스 맵에서의 깊이 값에 대하여 미리 설정된 임계값을 중심으로 배경 영역과 객체 영역을 분리하여, 분리된 객체 영역을 타겟 객체의 후보 영역으로 선정할 수 있다.
여기서, 프로세서는, 라이트 필드 데이터에 포함된 다초점 영상 중에서 제2 프레임과 상응하는 다초점 영상을 이용하여 서로 다른 초점으로 이루어진 이미지 각각에 대하여 타겟 객체의 영역을 결정할 수 있다.
상기와 같은 본 발명에 따른 라이트 필드 동영상을 이용한 물체 추적 방법 또는 장치를 이용할 경우에는 다초점 영상을 이용하므로 추적하려는 물체가 상당 부분 가려진 경우에도 가려진 물체를 제거하여 추적할 수 있다.
또한, 다시점 영상을 이용하여 물체의 학습 모델을 생성하므로 물체가 회전하거나 영상 내에서의 시점이 변경되면서 형태가 변화하는 경우에도 추적할 수 있는 장점이 있다.
또한, 뎁스 맵을 이용하여 객체 영역의 후보 영역을 결정할 수 있으므로, 타겟 객체의 영역을 정확하고 빠르게 선정함으로써 성능이 향상될 수 있다.
도 1은 카메라 어레이에 대한 예시도이다.
도 2는 물체 추적 방법을 설명하기 위한 예시도이다.
도 3은 본 발명의 일 실시예에 따른 라이트 필드 영상을 이용한 물체 추적 방법에 대한 흐름도이다.
도 4는 뎁스 맵에 대한 예시도이다.
도 5는 포컬 스택에 대한 예시도이다.
도 6a는 객체 영역을 지정하는 방법에 대한 제1 예시도이다.
도 6b는 객체 영역을 지정하는 방법에 대한 제2 예시도이다.
도 7a는 다초점 영상을 설명하기 위한 제1 예시도이다.
도 7b는 다초점 영상을 설명하기 위한 제2 예시도이다.
도 8은 본 발명의 일 실시예에 따른 라이트 필드 영상을 이용한 물체 추적 장치에 대한 구성도이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.
제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 본 발명에 따른 바람직한 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.
본 발명에서 타겟 객체(target object)는 영상에서 추적하고자 하는 물체를 의미할 수 있다.
본 발명에서 이미지(image)는 어느 한 장면(scene)을 촬영한 것으로 특정 해상도를 갖고 각각 픽셀(pixel)로 구성될 수 있다.
도 1은 카메라 어레이에 대한 예시도이다.
도 1을 참조하면, 카메라 어레이(10)는 수개의 렌즈(12)를 가진 카메라의 집합으로 구성될 수 있다.
여기서, 카메라 어레이(10)는 수개의 렌즈(12)를 가진 하나의 카메라로 지칭될 수 있으나, 각각의 렌즈(12)를 카메라로, 카메라 어레이(10)는 카메라의 집합으로 지칭될 수도 있다.
또한, 여기서 수개의 렌즈(12)는 매우 작은 마이크로 렌즈로 구성될 수도 있고, 각각의 렌즈(12)는 개별적인 해상도를 가질 수 있다.
도 1에서와 같이 수개의 렌즈(12)를 가지는 카메라 어레이(10)로 촬영하면, 본 발명에서의 라이트 필드 영상을 획득할 수 있다.
카메라 어레이(10)로 촬영된 영상은 각기 수개의 렌즈(12)가 서로 다른 시점에서 빛을 찍기 때문에 렌즈 개수에 상응하는 빛의 사진이 촬영되고, 빛의 방향과 거리까지 기록될 수 있다.
따라서, 촬영 후에 초점을 변경하거나 수개의 시점 서로 다른 시점에서 촬영된 이미지의 집합인 다시점 영상을 획득할 수 있다.
이처럼, 초점 변경이 가능하므로 하나의 장면에 대하여 수개의 초점 거리에 따라 촬영된 다초점 이미지를 획득할 수 있고, 다초점 이미지의 집합인 다초점 영상을 획득할 수 있다.
또한, 카메라 어레이에 의해 촬영된 라이트 필드 영상은 3차원 공간에 대한 데이터를 가지고 있기 때문에 라이트 필드 영상으로부터 깊이 정보를 획득할 수 있고, 획득된 깊이 정보를 이용하여 뎁스 맵을 생성할 수 있다.
도 2는 물체 추적 방법을 설명하기 위한 예시도이다.
도 2를 참조하여 객체를 설정하기 위한 현재 프레임 frame(t)(20)과 현재 프레임 이후의 프레임 frame(t+1)(26) 각각에서의 물체 추적을 위한 방법을 설명할 수 있다.
먼저 현재 프레임 frame(t)(20)에서 추적하고자 하는 객체 영역(22)을 설정할 수 있다. 여기서, 객체 영역(22)은 사각 박스 형태로 표현하였으나, 이에 한정되는 것은 아니며 다양한 형태로 설정할 수 있다.
또한, 여기서 객체 영역(22)을 설정하는 것은 사용자로부터의 입력에 따라 설정되는 것이 일반적이지만, 미리 등록된 위치 또는 외형에 기반하여 설정될 수도 있다.
일단, 객체 영역(22)이 설정되면, 객체 영역(22)에서 객체 특징을 추출하여 객체 모델을 생성할 수 있다.
여기서, 객체 모델은 여기서는 하나의 객체 영역(22)에서 기계 학습을 통하여 생성될 수 있으나, 반드시 하나의 객체 영역 또는 하나의 프레임에 대응되는 하나의 이미지 내의 객체 영역에 한정되는 것이 아니며, 이후에 설명할 내용과 같이 하나의 프레임과 대응되는 다수의 이미지로부터 객체 영역을 설정하여 학습의 대상으로 삼을 수 있다.
기계 학습의 대상이 되는 객체 영역을 많이 수집할수록 더 정교한 객체 모델을 생성할 수 있다.
또한, 객체 모델을 더 정확하게 설정하여 객체와 배경을 명확하게 구분할 수 있도록 객체 주변 영역(24)에 대해서도 기계 학습을 수행할 수 있고, 객체 주변 영역을 포함하여 객체 모델을 생성할 수 있다.
이때, 객체 영역(22)은 객체에 대한 특징 정보를 구성하기 위한 포지티브 샘플(positive sample) 뿐만 아니라, 객체 주변 영역(24)은 객체 주변에 대한 특징 정보를 구성하기 위한 네거티브 샘플(negative sample)이 함께 수집될 수 있다.
여기서 수집된 샘플들은 객체 모델을 생성하는데 각각 활용될 수 있는데, 포지티브 샘플은 타겟 객체에 대한 특징 정보를 구성하여 타겟 객체를 결정하는데 활용될 수 있고, 네거티브 샘플은 타겟 객체 주변의 특징 정보를 구성하여 타겟 객체가 아니라는 것을 확인하는 용도로 이용될 수 있다.
이때, 각각의 특징 정보는 컬러, 에지(edge), 텍스처 등을 의미할 수 있다.
또한, 여기서 생성되는 객체 모델은 타겟 객체의 기하학적 모양이나 실루엣을 이용하여 생성될 수도 있고, 객체의 형태와 외형을 동시에 모델링하여 객체 모델을 생성할 수도 있으며, 객체의 특징 정보(컬러, 텍스처 등)에 대한 확률밀도를 계산하여 생성할 수도 있다.
이와 같이 생성된 객체 모델을 현재 프레임 이후의 프레임frame(t+1)(26)에 적용하여 타겟 객체의 영역을 결정할 수 있다.
예를 들면, 현재 프레임 이후의 프레임frame(t+1)(26)에서 객체 모델을 적용하여 타겟 객체의 위치를 특정하고, 특정된 타겟 객체의 위치를 중심으로 타겟 객체의 영역을 결정할 수 있다.
이와 같은 방법으로, 그 이후의 프레임 각각에 대해서도, 객체 모델을 생성하고 타겟 객체의 영역을 결정할 수 있고, 각 프레임에서 결정된 타겟 객체의 영역으로부터 타겟 객체의 움직임을 추적할 수 있다.
도 3은 본 발명의 일 실시예에 따른 라이트 필드 영상을 이용한 물체 추적 방법에 대한 흐름도이다.
도 3을 참조하면, 라이트 필드 영상을 이용한 물체 추적 방법은, 라이트 필드 영상(light field video)으로부터 라이트 필드 영상 시퀀스를 생성하고, 라이트 필드 데이터를 획득하는 단계(S300), 라이트 필드 영상 시퀀스의 제1 프레임에서 객체 영역(object region)을 지정하는 단계(S310), 지정된 객체 영역을 기초로 기계학습(machine learning)을 통하여 객체 모델(object model)을 생성하는 단계(S320), 객체 모델을 기초로, 제1 프레임 이후의 제2 프레임에서 타겟 객체의 영역을 결정하는 단계(S330) 및 결정된 타겟 객체의 영역을 이용하여 타겟 객체를 추적하는 단계(S340)를 포함할 수 있다.
여기서, 라이트 필드 영상 시퀀스는 복수의 프레임(frame)으로 구성될 수 있고, 각각의 프레임은 하나의 장면(scene)과 대응될 수 있고, 하나의 장면(scene)을 카메라 어레이로 촬영시에 서로 다른 시점에서 촬영된 다시점 이미지의 집합인 다시점 영상과 대응될 수 있으며, 하나의 장면(scene)에서 촬영된 라이트 필드 영상이 서로 다른 초점 거리로 재조절된 초점 이미지들의 집합인 포컬 스택과 대응될 수 있다.
여기서, 라이트 필드 데이터는, 라이트 필드 영상 시퀀스로부터 깊이 정보를 계산하여 생성된 뎁스 맵(depth map)을 포함할 수 있다.
여기서, 깊이 정보를 계산하고, 뎁스맵을 생성하는 방법에 대해서는 본 발명이 속하는 기술분야에서 매우 다양한 방법들이 연구되고 적용되고 있으므로 특정 방법에 한정하여 해석되는 것이 아니며 다양한 방법으로 뎁스 맵 생성이 가능하므로, 자세한 설명은 생략한다.
이하에서 뎁스 맵에 대하여 예를 들어 설명할 수 있다.
도 4는 뎁스 맵에 대한 예시도이다.
도 4를 참조하면, 뎁스 맵은 촬영된 장면에 대하여 깊이 정보에 따라 달리 표현된 이미지로 구성될 수 있다.
여기서, 깊이 정보가 서로 다르기 때문에 촬영된 장면에 속한 객체와 배경을 분리할 수 있다.
예를 들면, 도 4에서 제1 사람(40)과 제2 사람(42)이 나타나고 그외 배경(44)이 나타나고 있는데, 특정 깊이 값에 따라 크거나 작은 픽셀을 삭제하면, 타겟 객체가 위치할 수 있는 영역을 특정할 수 있다.
구체적으로, 도 4에서 제2 사람(42)은 제1 사람(40)보다 더 밝게 표현되어 있는데, 제2 사람(42)이 제1 사람(40)보다 더 화면에 가깝에 위치해있다는 점을 나타낼 수 있다.
이에 따라 제1 사람(40)을 추적하려면 어느 특정 임계값보다 깊이값이 깊은 픽셀만을 도출함으로써 제1 사람(40)이 도출될 가능성이 높은 영역을 추출할 수 있다.
이와 같이 추출된 영역은 타겟 객체의 영역이 될 수 있는 후보 영역으로서 타겟 객체 추적시 활용될 수 있으므로, 타겟 객체를 더 정확하고 신속하게 추적할 수 있는 장점이 있다.
도 5는 포컬 스택에 대한 예시도이다.
도 5를 참조하면, 라이트 필드 영상으로부터 도출된 다초점 이미지들의 집합인 포컬 스택을 설명할 수 있다.
도 5에서, 카메라어레이(10)에 의해 특정 장면이 촬영된 라이트 필드 영상은 재초점(refocus) 알고리즘을 적용하여 각각 서로 다른 초점 거리에 따라 재조절될 수 있고 그에 따라 제1 초점 이미지(50), 제2 초점 이미지(52), 제3 초점 이미지(54), 제4 초점 이미지(56)가 획득될 수 있다.
여기서, 각각의 초점 이미지는 카메라어레이의 각 렌즈에서 수집된 다양한 이미지들로부터 각각의 초점 이미지가 도출될 수 있으며, 이에관한 재초점 알고리즘은 다양한 방법이 적용될 수 있다.
따라서, 초점 이미지를 획득하는 방법에 있어서는 특정 방법에 한정 해석되지 않는다.
포컬 스택은 이와 같이 도출된 초점 이미지들의 집합으로서, 라이트 필드 영상 시퀀스의 프레임 각각마다 포컬 스택이 대응될 수 있다.
정리하면, 라이트 필드 데이터는, 상기 라이트 필드 영상으로부터 도출되고, 하나의 장면에 대하여 초점 거리가 서로 다른 다수의 이미지로 구성된 포컬 스택(focul stack)을 포함할 수 있다.
이와 같이 하나의 장면에서 서로 다른 초점으로 획득된 다초점 이미지들의 집합인 포컬 스택을 이용하여 타겟 객체를 추적하는데 활용될 수 있고, 구체적인 적용 방법은 후술한다.
한편, 상기 라이트 필드 데이터는, 상기 라이트 필드 영상으로부터 하나의 장면에 대하여 서로 다른 시점에서의 이미지로 구성된 다시점 영상(multi-view image)을 포함할 수 있다.
다시점 영상에 대해서는 도 1에 관한 설명을 참조할 수 있다.
다시 도 3을 참조하면, 상기 제1 프레임에서 객체 영역을 지정하는 단계(S310)는, 제1 프레임에서 사각 영역, 타원 영역, 부분별 영역, 객체 윤곽 포인트, 객체 윤곽선, 객체 실루엣 중 적어도 하나를 포함하는 객체 영역을 지정할 수 있다.
이하에서 객체 영역을 지정하는 방법에 대하여 예를 들어 설명할 수 있다.
도 6a는 객체 영역을 지정하는 방법에 대한 제1 예시도이고 도 6b는 객체 영역을 지정하는 방법에 대한 제2 예시도이다.
도 6a를 참조하면 객체 영역은 사각 영역(60)을 지정할 수도 있고, 타원 영역(61)으로 지정할 수도 있으며, 각 부분을 여러 영역으로 나누어 부분별 영역(62)으로 지정할 수 있다.
사각 영역(60)이나 타원 영역(61)으로 객체를 지정하면 비교적 단순하고 포즈가 고정된 객체를 타겟 객체로 하는 경우에 적용될 수 있고, 부분별 영역(62)은 사람과 같이 인체의 각 부분에 움직임이 있는 경우가 있는 객체를 타겟 객체로 하는 경우에 적용될 수 있다.
도 6b를 참조하면, 객체 영역은 객체 윤곽 포인트(63)로서 윤곽 지점에 수개의 포인트로 지정할 수도 있고, 객체 윤곽선(64)으로 윤곽 전체를 표현할 수도 있으며, 객체 실루엣(65)으로 표현할 수도 있다.
이와 같이 객체의 윤곽을 중심으로 객체 영역을 지정하면 비교적 복잡하고 변화 가능한 형태의 객체를 추적하는데 유리할 수 있다.
다시 도 3을 참조하면, 제1 프레임에서 객체 영역을 지정하는 단계(S310)는, 라이트 필드 데이터에 포함된 다시점 영상 중에서 제1 프레임과 상응하는 다시점 영상을 이용하여 서로 다른 시점으로 이루어진 이미지 각각에 대하여 객체 영역을 지정하는 단계를 포함할 수 있다.
이처럼, 서로 다른 시점으로 이루어진 이미지들에서도 객체 영역을 지정하여 객체 모델을 생성하는데 활용하므로, 하나의 타겟 객체에 대하여 상, 하, 좌, 우 방향의 서로 다른 시점에서의 특징 정보를 포함할 수 있고, 따라서 타겟 객체가 회전하면서 발생하는 외형 변화에도 영향을 덜 받는 강인한(robust) 물체 추적을 할 수 있다.
여기서, 다시점 영상은, 라이트 필드 영상을 촬영한 카메라어레이의 렌즈 각각의 시점뿐만 아니라 상기 각각의 시점에서 획득한 이미지들을 뷰 인터폴레이션(view interpolation)하여 생성된 임의의 시점에 대한 이미지들을 포함할 수 있다.
보간(interpolation)하여 임의의 시점 이미지를 생성하는 방법에 대해서는 본 발명이 속하는 기술분야에서 다양한 방법이 적용될 수 있고, 특정 방법에 한정하여 해석되지 않는 것으로 이해되어야 한다.
여기서, 제2 프레임에서 타겟 객체의 영역을 결정하는 단계(S330)는, 제1 프레임 이후의 제2 프레임에서 객체 모델을 기초로 타겟 객체의 위치를 결정하는 단계 및 결정된 타겟 객체의 위치를 기초로 제2 프레임에서 타겟 객체의 영역을 결정하는 단계를 포함할 수 있다.
여기서, 제2 프레임에서 타겟 객체의 영역을 결정하는 단계(S330)는, 제2 프레임에 상응하는 뎁스 맵을 이용하여 타겟 객체의 후보 영역을 선정하는 단계 및 선정된 후보 영역 중에서 타겟 객체의 영역을 결정하는 단계를 포함할 수 있다.
여기서, 뎁스 맵을 이용하여 타겟 객체의 후보 영역을 선정하는 단계는, 뎁스 맵에서의 깊이 값에 대하여 미리 설정된 임계값을 중심으로 배경 영역과 객체 영역을 분리하여, 분리된 객체 영역을 타겟 객체의 후보 영역으로 선정할 수 있다.
앞서 도 4를 참조하여 설명한 내용과 같이, 뎁스 맵을 이용하면 타겟 객체가 위치할 가능성이 높은 영역을 도출할 수 있다.
여기서, 제2 프레임에서 타겟 객체의 영역을 결정하는 단계(S330)는, 라이트 필드 데이터에 포함된 포컬 스택 중에서 제2 프레임과 상응하는 포컬 스택을 이용하여 서로 다른 초점으로 이루어진 이미지 각각에 대하여 상기 타겟 객체의 영역을 결정할 수 있다.
이하에서, 포컬 스택(또는 다초점 영상)을 이용한 타겟 객체의 영역 설정을 상세히 설명할 수 있다.
도 7a는 다초점 영상을 설명하기 위한 제1 예시도이고 도 7b는 다초점 영상을 설명하기 위한 제2 예시도이다.
도 7a와 도7b를 참조하면, 다초점 영상이 활용됨으로써 타겟 객체를 더 정확하게 추적할 수 있는 효과를 설명할 수 있다.
도 7a를 참조하면, 먼저 라이트 필드 영상의 특정 초점으로 조절된 장면으로서, 정면에 제1 화분(72) 및 제2 화분(74)이 위치할 수 있고, 추적하고자 하는 타겟 객체(70)는 제1 화분(72)과 제2 화분(74) 뒤에 위치하여 매우 흐릿하게만 확인될 수 있다.
이러한 장면에 대하여 타겟 객체(70)를 추적한다면 매우 흐릿한 타겟 객체(70)를 추적하여야 하기 때문에 생성된 객체 모델로 추적하는 것이 용이하지 않을 수 있다.
따라서, 초점을 달리한 이미지를 이용하여 해결할 수 있는데, 도 7b를 참조하면, 제1 화분(72)과 제2 화분(74)보다 초점이 뒤에 위치하도록 재조절된 이미지를 확인할 수 있다.
도 7b에서의 이미지를 참조하면, 도 7a에서의 장면보다 초점이 뒤에 위치하기 때문에 타겟 객체(70)가 매우 선명하게 나타나고, 제1 화분(72)과 제2 화분(74)은 매우 흐릿하게 나타남을 확인할 수 있다.
따라서, 초점 거리를 달리 조절한 이미지로부터 현재 장면에 나타난 타겟 객체(70)를 추적하는 것이 가능하다.
즉, 라이트 필드 영상에서 초점 거리를 재조절함으로써, 획득된 다초점 영상을 이용하면, 타겟 객체(70)가 뚜렷하게 나타날 수 있어 타겟 객체(70)를 용이하게 추적할 수 있다.
다시 도 3을 참조하면, 결정된 타겟 객체의 영역을 이용하여 상기 타겟 객체를 추적하는 단계(S340)는 하나 이상의 타겟 객체의 영역을 이용하여 타겟 객체를 추적할 수 있다.
구체적으로, 제1 프레임에서 객체영역을 지정하는 단계(S310)부터 제2 프레임에서 타겟 객체의 영역을 결정(S330)하는 단계까지를 라이트 필드 영상 시퀀스의 프레임에 대하여 순차적으로 수행하고 복수개의 타겟 객체 영역을 결정할 수 있고, 복수의 타겟 객체의 영역과의 연관성 또는 유사성을 추적함으로써 타겟 객체를 추적할 수 있다.
구체적으로 예를 들면, 복수의 타겟 객체의 영역을 중심으로, 추적 알고리즘을 적용할 수 있는데, 칼만 추적, 실루엣 추적 등이 적용될 수 있다.
도 8은 본 발명의 일 실시예에 따른 라이트 필드 영상을 이용한 물체 추적 장치에 대한 구성도이다.
도 8을 참조하면, 라이트 필드 영상을 이용한 물체 추적 장치(80)는, 적어도 하나의 명령을 실행하는 프로세서(processor, 81) 및 적어도 하나의 명령을 저장하는 메모리(memory, 82)를 포함할 수 있다.
여기서, 라이트 필드 영상을 이용한 물체 추적 장치(80)는 라이트 필드 영상 시퀀스의 각 프레임에 대하여 객체 영역을 지정하기 위한 사용자 입력을 받는 입력모듈(83)을 포함할 수 있다. 입력모듈(83)은 키보드, 마우스, 터치 스크린 등이 있을 수 있다.
여기서, 라이트 필드 영상을 이용한 물체 추적 장치(80)는 USB device(Universial serial bus), HDD(hard disk drive), SSD(solid state drive) 등과 같은 데이터 저장매체로부터 본 발명의 일 실시예에 따른 라이트 필드 영상을 수신하는 인터페이스(interface) 또는 유무선네트워크를 통하여 라이트 필드 영상을 전송받는 통신모듈(84)을 포함할 수 있다.
라이트 필드 영상을 이용한 물체 추적 장치(80)의 예를 들면, 통신 가능한 데스크탑 컴퓨터(desktop computer), 랩탑 컴퓨터(laptop computer), 노트북(notebook), 스마트폰(smart phone), 태블릿 PC(tablet PC), 모바일폰(mobile phone), 스마트 워치(smart watch), 스마트 글래스(smart glass), e-book 리더기, PMP(portable multimedia player), 휴대용 게임기, 네비게이션(navigation) 장치, 디지털 카메라(digital camera), DMB(digital multimedia broadcasting) 재생기, 디지털 음성 녹음기(digital audio recorder), 디지털 음성 재생기(digital audio player), 디지털 동영상 녹화기(digital video recorder), 디지털 동영상 재생기(digital video player), PDA(Personal Digital Assistant) 등일 수 있다.
여기서, 프로세서(81)는, 라이트 필드 영상(light field video)으로부터 라이트 필드 영상 시퀀스를 생성하고, 라이트 필드 데이터를 획득하며, 라이트 필드 영상 시퀀스의 제1 프레임에서 객체 영역(object region)을 지정하고, 지정된 객체 영역을 기초로 기계학습(machine learning)을 통하여 객체 모델(object model)을 생성하고, 객체 모델을 기초로, 제1 프레임 이후의 제2 프레임에서 타겟 객체의 영역을 결정하고, 결정된 타겟 객체의 영역을 이용하여 타겟 객체를 추적할 수 있다.
여기서, 라이트 필드 데이터는, 라이트 필드 영상 시퀀스로부터 깊이 정보를 계산하여 생성된 뎁스 맵(depth map)을 포함할 수 있다.
여기서, 라이트 필드 데이터는, 라이트 필드 영상으로부터 도출되고, 하나의 장면에 대하여 초점 거리가 서로 다른 다수의 이미지로 구성된 포컬 스택(focul stack)을 포함할 수 있다.
여기서, 라이트 필드 데이터는, 라이트 필드 영상으로부터 하나의 장면에 대하여 서로 다른 시점에서의 이미지로 구성된 다시점 영상(multi-view image)을 포함할 수 있다.
여기서, 프로세서(81)는, 라이트 필드 데이터에 포함된 다시점 영상 중에서 제1 프레임과 상응하는 다시점 영상을 이용하여 서로 다른 시점으로 이루어진 이미지 각각에 대하여 객체 영역을 지정할 수 있다.
여기서, 다시점 영상은, 라이트 필드 영상을 촬영한 카메라어레이 각각의 시점뿐만 아니라 각각의 시점에서 획득한 이미지들을 뷰 인터폴레이션(vew interpolation)하여 생성된 임의의 시점에 대한 이미지들을 포함할 수 있다.
여기서, 프로세서(81)는, 제1 프레임 이후의 제2 프레임에서 객체 모델을 기초로 타겟 객체의 위치를 결정하는 단계 및 결정된 타겟 객체의 위치를 기초로 제2 프레임에서 타겟 객체의 영역을 결정할 수 있다.
여기서, 프로세서(81)는, 제2 프레임에 상응하는 뎁스 맵을 이용하여 타겟 객체의 후보 영역을 선정하고, 선정된 후보 영역 중에서 타겟 객체의 영역을 결정할 수 있다.
여기서, 프로세서(81)는, 뎁스 맵에서의 깊이 값에 대하여 미리 설정된 임계값을 중심으로 배경 영역과 객체 영역을 분리하여, 분리된 객체 영역을 타겟 객체의 후보 영역으로 선정할 수 있다.
여기서, 프로세서(81)는, 라이트 필드 데이터에 포함된 다초점 영상 중에서 제2 프레임과 상응하는 다초점 영상을 이용하여 서로 다른 초점으로 이루어진 이미지 각각에 대하여 타겟 객체의 영역을 결정할 수 있다.
본 발명에 따른 방법들은 다양한 컴퓨터 수단을 통해 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 컴퓨터 판독 가능 매체에 기록되는 프로그램 명령은 본 발명을 위해 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다.
컴퓨터 판독 가능 매체의 예에는 롬(ROM), 램(RAM), 플래시 메모리(flash memory) 등과 같이 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함될 수 있다. 프로그램 명령의 예에는 컴파일러(compiler)에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터(interpreter) 등을 사용해서 컴퓨터에 의해 실행될 수 있는 고급 언어 코드를 포함할 수 있다. 상술한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 적어도 하나의 소프트웨어 모듈로 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
또한, 상술한 방법 또는 장치는 그 구성이나 기능의 전부 또는 일부가 결합되어 구현되거나, 분리되어 구현될 수 있다.
상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

Claims (1)

  1. 라이트 필드 영상(light field video)으로부터 라이트 필드 영상 시퀀스를 생성하고, 라이트 필드 데이터를 획득하는 단계;
    상기 라이트 필드 영상 시퀀스의 제1 프레임에서 객체 영역(object region)을 지정하는 단계;
    지정된 객체 영역을 기초로 기계학습(machine learning)을 통하여 객체 모델(object model)을 생성하는 단계;
    상기 객체 모델을 기초로, 상기 제1 프레임 이후의 제2 프레임에서 타겟 객체의 영역을 결정하는 단계; 및
    결정된 타겟 객체의 영역을 이용하여 상기 타겟 객체를 추적하는 단계를 포함하는, 라이트 필드 영상을 이용한 물체 추적 방법.
KR1020160171391A 2016-12-15 2016-12-15 라이트 필드 동영상을 이용한 물체 추적 방법 및 장치 KR20180069312A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020160171391A KR20180069312A (ko) 2016-12-15 2016-12-15 라이트 필드 동영상을 이용한 물체 추적 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160171391A KR20180069312A (ko) 2016-12-15 2016-12-15 라이트 필드 동영상을 이용한 물체 추적 방법 및 장치

Publications (1)

Publication Number Publication Date
KR20180069312A true KR20180069312A (ko) 2018-06-25

Family

ID=62806165

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160171391A KR20180069312A (ko) 2016-12-15 2016-12-15 라이트 필드 동영상을 이용한 물체 추적 방법 및 장치

Country Status (1)

Country Link
KR (1) KR20180069312A (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109543615A (zh) * 2018-11-23 2019-03-29 长沙理工大学 一种基于多级特征的双学习模型目标跟踪方法
KR20200039035A (ko) * 2018-09-27 2020-04-16 주식회사 스위트케이 인공지능 기반의 학습데이터셋 제공 시스템

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200039035A (ko) * 2018-09-27 2020-04-16 주식회사 스위트케이 인공지능 기반의 학습데이터셋 제공 시스템
CN109543615A (zh) * 2018-11-23 2019-03-29 长沙理工大学 一种基于多级特征的双学习模型目标跟踪方法
CN109543615B (zh) * 2018-11-23 2022-10-28 长沙理工大学 一种基于多级特征的双学习模型目标跟踪方法

Similar Documents

Publication Publication Date Title
US11756223B2 (en) Depth-aware photo editing
US10395383B2 (en) Method, device and apparatus to estimate an ego-motion of a video apparatus in a SLAM type algorithm
KR102117050B1 (ko) 이미지 내 휴먼 분리를 위한 전자 장치 및 방법
CN111243093B (zh) 三维人脸网格的生成方法、装置、设备及存储介质
KR101893047B1 (ko) 이미지 처리 방법 및 이미지 처리 장치
Chen et al. City-scale landmark identification on mobile devices
CN112884881B (zh) 三维人脸模型重建方法、装置、电子设备及存储介质
US20150146032A1 (en) Light field processing method
US20130335535A1 (en) Digital 3d camera using periodic illumination
CN106210538A (zh) 在用户设备上显示基于光场的图像的方法和装置及程序
CN112819944B (zh) 三维人体模型重建方法、装置、电子设备及存储介质
US11094079B2 (en) Determining a pose of an object from RGB-D images
EP3093822B1 (en) Displaying a target object imaged in a moving picture
US20120127203A1 (en) Mixed reality display
WO2023011013A1 (zh) 视频图像的拼缝搜索方法、视频图像的拼接方法和装置
US20120127302A1 (en) Mixed reality display
WO2023168957A1 (zh) 姿态确定方法、装置、电子设备、存储介质及程序
US20160110909A1 (en) Method and apparatus for creating texture map and method of creating database
KR20160149160A (ko) 라이트필드 데이터베이스에서의 데이터 취출을 위한 방법 및 장치
KR20180069312A (ko) 라이트 필드 동영상을 이용한 물체 추적 방법 및 장치
Park et al. Estimating the camera direction of a geotagged image using reference images
JP6294703B2 (ja) 画像処理装置、画像処理方法およびプログラム
CN116051736A (zh) 一种三维重建方法、装置、边缘设备和存储介质
JP2014085845A (ja) 動画処理装置、動画処理方法、プログラム、および集積回路
Diskin et al. Dense point-cloud representation of a scene using monocular vision