KR20190039384A - 마코프체인을 사용하여 이미지 상 대상 객체를 추적, 분할하는 방법 및 장치 - Google Patents

마코프체인을 사용하여 이미지 상 대상 객체를 추적, 분할하는 방법 및 장치 Download PDF

Info

Publication number
KR20190039384A
KR20190039384A KR1020180117309A KR20180117309A KR20190039384A KR 20190039384 A KR20190039384 A KR 20190039384A KR 1020180117309 A KR1020180117309 A KR 1020180117309A KR 20180117309 A KR20180117309 A KR 20180117309A KR 20190039384 A KR20190039384 A KR 20190039384A
Authority
KR
South Korea
Prior art keywords
roi
node
target object
absorption
frame
Prior art date
Application number
KR1020180117309A
Other languages
English (en)
Inventor
김용중
남운현
부석훈
성명철
여동훈
유우주
장태웅
정경중
제홍모
조호진
Original Assignee
주식회사 스트라드비젼
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 스트라드비젼 filed Critical 주식회사 스트라드비젼
Publication of KR20190039384A publication Critical patent/KR20190039384A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06K9/00711
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/12Edge-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/136Segmentation; Edge detection involving thresholding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/143Segmentation; Edge detection involving probabilistic approaches, e.g. Markov random field [MRF] modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/162Segmentation; Edge detection involving graph-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/248Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/277Analysis of motion involving stochastic approaches, e.g. using Kalman filters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20072Graph-based image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20076Probabilistic image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20092Interactive image processing based on input by user
    • G06T2207/20104Interactive definition of region of interest [ROI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30221Sports video; Sports image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/12Bounding box

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

흡수 마코프체인을 사용하여 동영상 데이터 프레임에서 대상 객체를 추적하는 방법은, (a) 현재 프레임 상 대상 객체를 포함한 바운딩 박스와 이전 프레임에 있는 대상 객체에 대한 세그먼테이션 결과를 획득하거나 획득하도록 지원하는 단계; (b) 대상 객체를 둘러싼 배경에 대한 정보의 일부를 포함하도록 바운딩 박스를 확대하여 현재 프레임 상의 ROI(region of interest)를 획득하거나 획득하도록 지원하는 단계; (c) 현재 프레임 상의 ROI 안에 있는 여러 로컬 영역에 대한 정보를 획득하거나 획득하도록 지원하는 단계; (d) 현재 프레임에 있는 ROI 내 로컬 영역과 이전 프레임에 있는 ROI 내 로컬 영역 중 적어도 일부를 사용하여 흡수 마코프체인 그래프를 구성하거나 구성하도록 지원하는 단계; 및 (e) 흡수 횟수를 사용하여 흡수 마코프체인 그래프 내 각 노드의 임계값을 정하여 현재 프레임 상 대상 객체에 대한 세그먼테이션 결과를 획득하거나 획득하도록 지원하는 단계;를 포함한다.

Description

마코프체인을 사용하여 이미지 상 대상 객체를 추적, 분할하는 방법 및 장치{METHOD FOR TRACKING AND SEGMENTING A TARGET OBJECT IN AN IMAGE USING MARKOV CHAIN, AND DEVICE USING THE SAME}
본 발명은 흡수 마코프체인(AMC; Absorbing Markov Chain)을 사용한 비디오 데이터의 프레임 상의 대상 객체를 추적하는 방법 및 장치에 관한 것이다. 구체적으로는 (a) 컴퓨팅 장치가, 현재 프레임 상 대상 객체를 포함한 바운딩 박스와 이전 프레임에 있는 상기 대상 객체에 대한 세그먼테이션 결과를 획득하거나 획득하도록 지원하는 단계; (b) 상기 컴퓨팅 장치가, 상기 대상 객체를 둘러싼 배경에 대한 정보의 일부를 포함하도록 상기 바운딩 박스를 확대하여 상기 현재 프레임 상의 ROI(region of interest)를 획득하거나 획득하도록 지원하는 단계; (c) 상기 컴퓨팅 장치가, 상기 현재 프레임 상의 상기 ROI 안에 있는 여러 로컬 영역에 대한 정보를 획득하거나 획득하도록 지원하는 단계; (d) 상기 컴퓨팅 장치가, 상기 현재 프레임에 있는 상기 ROI 내 상기 로컬 영역과 상기 이전 프레임에 있는 ROI 내 로컬 영역 중 적어도 일부를 사용하여 흡수 마코프체인 그래프를 구성하거나 구성하도록 지원하는 단계; 및 (e) 상기 컴퓨팅 장치가, 흡수 횟수를 사용하여 상기 흡수 마코프체인 그래프 내 각 노드의 임계값을 정하여 상기 현재 프레임 상 상기 대상 객체에 대한 세그먼테이션 결과를 획득하거나 획득하도록 지원하는 단계;를 포함하되, 상기 흡수 마코프체인 그래프는 (i) 상기 이전 프레임에 있는 상기 ROI 내 배경 정보를 포함한 로컬 영역에 해당되는 흡수(absorbing) 노드 세트와 (ii) 상기 현재 프레임에 있는 상기 ROI 내 상기 로컬 영역 및 상기 이전 프레임에 있는 상기 ROI 내의 상기 대상 객체에 대한 상기 세그먼테이션 결과와 관련된 로컬 영역에 해당되는 일시(transient) 노드 세트로 구성된 두 노드 부분집합을 포함하며, 상기 흡수 마코프체인 그래프는 인트라프레임 에지 세트와 인터프레임 에지 세트로 구성된 두 에지 부분집합을 포함하고, 상기 각 노드에서 임의의 흡수 노드까지의 단계 수인 노드의 흡수 횟수가 각 노드별로 존재하는 것을 특징으로 하는 흡수 마코프체인(AMC; Absorbing Markov Chain)을 사용한 비디오 데이터의 프레임 상의 대상 객체를 추적하는 방법 및 장치에 관한 것이다.
다양한 비주얼 트래킹 알고리즘이 고안되어 다양한 분야에 적용되어 왔다. 트래킹 대상의 형상은 상당한 변화에 관여하게 되고, 예외를 처리하기 위해 높은 레벨의 장면에 대한 이해가 필요할 때가 있기 때문에 비주얼 트래킹은 고난이도의 작업이다.
검출에 의한 트래킹 알고리즘은 그러한 고난이도의 작업을 처리하는 일반적인 방식 중 하나로, 이는 전형적으로 대상 객체를 표시하는 바운딩 박스들에 따라 좌우된다. 그러나, 대상 객체가 실질적인 비정형 또는 관절 동작과 연관된 경우 검출에 의한 트래킹은 종종 드리프팅 문제에 시달린다.
최근에는 픽셀 레벨의 정보에만 의존하는 세그먼테이션에 의한 트래킹 알고리즘이 활발히 제시되었다. 그러나, 이렇게 제시된 알고리즘들은 대상 객체의 의미 구조를 모델링하기에 충분하지 않으며, 이중 일부는 그랩컷 같은 외부 세그먼테이션 알고리즘을 활용한다.
결과적으로, 비정형적이고 변형가능한 대상 객체들을 처리하는 중간 레벨의 큐를 적용한 비주얼 트래킹 기술이 제안되었다. 예를 들어, 비주얼 트래킹 기술 중 하나는 대상 객체에 대한 최적의 상태를 찾기 위해 평균점 이동 클러스터링과 입자 필터링을 통합하여 분별적 형상 모델링을 위한 수퍼픽셀을 사용한다. 또 다른 비주얼 트래킹 기술은 대상 객체의 비정형적 변형을 처리하기 위해 수퍼픽셀을 기반으로 한 컨스텔레이션 모델을 적용하고 있다.
그러나, 위에서 언급한 상기 두 비주얼 트래킹 기술은 독자적으로 각각의 수퍼픽셀을 전경이나 배경으로 분류하기 때문에 의미관계를 찾는데 취약할 수 있다. 위에서 언급한 이러한 두 기술들의 한계를 극복하기 위해 픽셀과 수퍼픽셀 및 바운딩 박스 등 다수의 양자화 레벨을 사용한 대상 객체의 형상에 대한 계층적 표현을 기반으로 한 기술이 제시되었다.
또한, 3개의 각기 다른 레벨에서 얻은 정보를 활용한 적응가능한 클러스터된 결정 트리를 유지하여 동적인 다단계 형상 모델링을 사용한 또 다른 트래킹 기술도 제시되었다. 그러나 이 두 기술은 그랩컷 등 외부 세그먼테이션 알고리즘을 필요로 한다.
이처럼 모든 기존 방식이나 알고리즘들은 위에서 언급한 문제를 가지고 있다.
그러므로, 본 발명의 명세서에서는 흡수 마코프체인을 사용한 프레임워크를 가진 새로운 세그먼테이션에 의한 트래킹 알고리즘을 제안한다.
특히, 흡수 마코프체인을 이용하여 고안한 알고리즘은 비정형적 동작과 관절 동작을 하는 대상 객체들을 추적하는데 적합하다. 첫 세그먼테이션 마스크뿐 아니라 대상 객체들에 대한 세그먼테이션은 고안된 프레임워크 내에서 자연스럽게 얻는다.
고안된 알고리즘은 척도 학습보다 더 효과적으로 대상 객체의 피처를 구별하는 투영 연산의 결과를 바탕으로 전경과 배경을 정확하게 구분한다.
본 발명은 상술한 문제점을 모두 해결하는 것을 목적으로 한다.
또한, 본 발명은 비정형적이고 변형가능한 대상 객체들에 대한 비주얼 트래킹에 흡수 마코프체인을 적용하는 단순하고 새로우며 강력한 세그먼테이션에 의한 트래킹 알고리즘과 프레임워크를 제공하는 것을 다른 목적으로 한다.
또한, 본 발명은 임베디드 공간 내 초평면 위에 대상 객체들의 피처를 투영하여 높은 정확도로 대상 객체들을 추적하고 분할하는 것을 또 다른 목적으로 한다.
최신 세그먼테이션을 기반으로 트래킹 알고리즘과 비교하여 실질적인 성능 향상을 성취하는 것을 또 다른 목적으로 한다.
본 발명의 일 태양에 따르면, 흡수 마코프체인을 사용하여 동영상 데이터 프레임에서 대상 객체를 추적하는 방법은, (a) 컴퓨팅 장치가, 현재 프레임 상 대상 객체를 포함한 바운딩 박스와 이전 프레임에 있는 상기 대상 객체에 대한 세그먼테이션 결과를 획득하거나 획득하도록 지원하는 단계; (b) 상기 컴퓨팅 장치가, 상기 대상 객체를 둘러싼 배경에 대한 정보의 일부를 포함하도록 상기 바운딩 박스를 확대하여 상기 현재 프레임 상의 ROI(region of interest)를 획득하거나 획득하도록 지원하는 단계; (c) 상기 컴퓨팅 장치가, 상기 현재 프레임 상의 상기 ROI 안에 있는 여러 로컬 영역에 대한 정보를 획득하거나 획득하도록 지원하는 단계; (d) 상기 컴퓨팅 장치가, 상기 현재 프레임에 있는 상기 ROI 내 상기 로컬 영역과 상기 이전 프레임에 있는 ROI 내 로컬 영역 중 적어도 일부를 사용하여 흡수 마코프체인 그래프를 구성하거나 구성하도록 지원하는 단계; 및 (e) 상기 컴퓨팅 장치가, 흡수 횟수를 사용하여 상기 흡수 마코프체인 그래프 내 각 노드의 임계값을 정하여 상기 현재 프레임 상 상기 대상 객체에 대한 세그먼테이션 결과를 획득하거나 획득하도록 지원하는 단계;를 포함하되, 상기 흡수 마코프체인 그래프는 (i) 상기 이전 프레임에 있는 상기 ROI 내 배경 정보를 포함한 로컬 영역에 해당되는 흡수(absorbing) 노드 세트와 (ii) 상기 현재 프레임에 있는 상기 ROI 내 상기 로컬 영역 및 상기 이전 프레임에 있는 상기 ROI 내의 상기 대상 객체에 대한 상기 세그먼테이션 결과와 관련된 로컬 영역에 해당되는 일시(transient) 노드 세트로 구성된 두 노드 부분집합을 포함하며, 상기 흡수 마코프체인 그래프는 인트라프레임 에지 세트와 인터프레임 에지 세트로 구성된 두 에지 부분집합을 포함하고, 상기 각 노드에서 임의의 흡수 노드까지의 단계 수인 노드의 흡수 횟수가 각 노드별로 존재하는 것을 특징으로 하는 방법이 제공된다.
일예로서, 상기 (d) 단계 이전에, 상기 컴퓨팅 장치는 상기 현재 프레임 상 상기 ROI 내 상기 로컬 영역 각각의 오리지널 피처와 상기 이전 프레임 상 상기 ROI 내 상기 로컬 영역 각각의 오리지널 피처를, 상기 오리지널 피처의 특성을 참조하여 결정되는 특정 연산을 수행하여, 임베디드 공간에 투영하거나 투영하도록 지원하는 단계;를 더 포함하는 것을 특징으로 하는 방법이 제공된다.
일예로서, 상기 컴퓨팅 장치는 적어도 하나의 회귀자로 회귀를 사용하여 상기 현재 프레임 상 상기 ROI 내 상기 로컬 영역 각각의 상기 오리지널 피처와 상기 이전 프레임 상 상기 ROI 내 상기 로컬 영역 각각의 상기 오리지널 피처를 투영하거나 투영하도록 지원하는 것을 특징으로 하는 방법이 제공된다.
일예로서, 상기 (d)단계는 (d-1) 상기 컴퓨팅 장치가 상기 적어도 하나의 회귀자를 통해 상기 현재 프레임 상 상기 ROI와 상기 이전 프레임 상 상기 ROI 내 상기 로컬 영역의 각 투영된 피처를 사용하여 획득된 상기 흡수 마코프체인 그래프 내 각 노드와 관련된 각 회귀 점수를 획득하거나 획득하도록 지원하는 단계; (d-2) 상기 컴퓨팅 장치가 상기 흡수 마코프체인 그래프 내 각 노드 중 선택되어 서로 연결된 두 노드와 각각 관련된 각 회귀 점수간의 유사도를 산정하거나 산정하도록 지원하여 상기 흡수 마코프체인 그래프 상 각 에지에 대응되는 가중치를 얻는 단계; (d-3) 상기 컴퓨팅 장치가 대응되는 가중치를 기반으로 상기 각 에지에 대한 각 전이 확률을 산정하거나 산정하도록 지원하는 단계; 및 (d-4) 상기 컴퓨팅 장치가 상기 흡수 마코프체인 그래프 내 상기 각각의 노드에 대한 각 흡수횟수를 얻기 위해 상기 (d-3)단계에서 산정된 그에 대응되는 전이 확률을 참조하여 랜덤 워크로 상기 흡수 마코프체인 그래프를 트래킹하거나 트래킹하도록 지원하는 단계;를 포함하는 것을 특징으로 하는 방법이 제공된다.
일예로서, 상기 흡수 마코프체인 그래프 내 각각의 노드에는 (i) 에지 유형을 기반으로 선택된 각기 다른 계수 중 하나와 (ii) 상기 흡수 마코프체인 그래프 내 상기 에지 각각에 대응되는 가중치를 반복적으로 곱하여 얻은 조정된 에지 가중치를 기준으로 획득한, 랜덤 워커가 상기 각각의 일시 노드를 통과하는 횟수를 나타내는 상기 이전 프레임 상 상기 대상 객체에 대한 세그먼테이션 결과에 대응되는 상기 일시 노드 각각의 각각 수정된 흡수 횟수가 존재하는 것을 특징으로 하는 방법이 제공된다.
일예로서, 상기 회귀 점수는 서포트벡터회귀를 적용하여 획득하는 것을 특징으로 하되, 라벨은 상기 흡수 마코프체인 그래프 내 각각의 노드 중 전경으로 결정되는 노드의 경우 +1로, 배경으로 결정되는 노드의 경우 -1로 표시되는 것을 특징으로 하는 방법이 제공된다.
일예로서, 상기 적어도 하나의 회귀자는 전경을 나타내는 노드 세트와 배경을 나타내는 노드 세트로 트레이닝이 되되, 전경을 나타내는 세트에 속하는 각 노드는 상기 이전 프레임 상 상기 대상 객체와 상기 비디오 데이터의 제1 프레임 상 상기 대상 객체에 대한 상기 세그먼테이션 결과 내 상기 로컬 영역 중 하나에 대응되고, 배경을 나타내는 노트 세트에 속하는 각 노드는 상기 이전 프레임과 상기 제1 프레임 상 상기 대상 객체에 대한 상기 세그먼테이션 결과와 관련이 없는 로컬 영역 중 하나에 대응되는 것을 특징으로 하는 방법이 제공된다.
일예로서, 상기 배경을 나타내는 노드 세트는 상기 현재 프레임과 상기 이전 프레임 상 상기 ROI의 경계면에 있는 로컬 영역에 대응되는 노드를 더 포함하는 방법이 제공된다.
일예로서, 상기 (e)단계 이후, (f) 상기 컴퓨팅 장치는 상기 흡수 마코프체인 그래프 상 특정한 수의 홉(hop) 내에 상기 일시 노드의 다수의 연결 구성요소를 획득하거나 획득하도록 지원하는 단계; (g) 상기 컴퓨팅 장치는 상기 다수의 연결 구성요소 중 하나의 연결 구성요소를 선택하거나 선택하도록 지원하되, 상기 선택된 하나의 연결 구성요소는 상기 현재 프레임 상 대상 객체 대한 전체적 형상 모델에 가장 유사한 연결 구성요소인 단계; 및 (h) 상기 컴퓨팅 장치는 상기 선택된 하나의 연결 구성요소를 사용하여 상기 현재 프레임 상 상기 대상 객체에 대해 상기 세그먼테이션 결과를 조정하거나 조정을 지원하여 조정된 트래킹 결과와 그에 대응되는 트래킹 박스를 획득하는 단계;를 더 포함하는 방법이 제공된다.
일예로서, 상기 (d)단계 이전에, 상기 컴퓨팅 장치는 상기 현재 프레임 상 상기 ROI 내 상기 로컬 영역과 상기 이전 프레임 상 상기 ROI 내 상기 로컬 영역 각각의 각 오리지널 피처의 특징을 참조하여 결정되는 특정 연산을 수행하여 상기 각 오리지널 피처를 임베디드 공간에 투영하거나 투영하도록 지원하는 단계;를 더 포함하는 방법이 제공된다.
일예로서, 상기 현재 프레임 상 상기 ROI 내 상기 로컬 영역과 상기 이전 프레임 상 상기 ROI 내 상기 로컬 영역 각각의 상기 각 오리지널 피처는 CNN(Convolutional Neural Network)을 통해 획득되는 것을 특징으로 하는 방법이 제공된다.
일예로서, 상기 (e)단계에서, 상기 컴퓨팅 장치는 상기 흡수 마코프체인 그래프 내 각각의 노드의 흡수 횟수를 사용하여 상기 노드를 임계화 후 세그먼테이션 마스크를 더 획득하거나 획득하도록 지원하는 것을 특징으로 하는 방법이 제공된다.
일예로서, 상기 현재 프레임 상 상기 대상 객체를 포함한 바운딩 박스는 상기 이전 프레임 상 상기 대상 객체에 대한 상기 세그먼테이션 결과를 변형하여 변형된 결과를 포함한 가장 꽉 찬 바운딩 박스를 찾아 획득되는 것을 특징으로 하는 방법이 제공된다.
일예로서, 상기 (e)단계에서, 상기 각각의 노드는 적어도 상기 현재 프레임 상 상기 ROI 내 일시 노드의 적어도 일부의 흡수 횟수를 사용하여 결정되는 임계값을 기반으로 임계화하는 것을 특징으로 하는 방법이 제공된다.
일예로서, 상기 현재 프레임 상 상기 ROI 내 상기 로컬 영역 및 상기 이전 프레임 상 상기 ROI 내 상기 로컬 영역은 수퍼픽셀 세그먼테이션 알고리즘을 사용하여 픽셀들을 수퍼픽셀로 클러스터링하여 획득되는 것을 특징으로 하는 방법이 제공된다.
일예로서, 상기 컴퓨팅 장치가 상기 비디오 데이터의 제1 프레임인 경우 첫 세그먼테이션 마스크를 획득하거나 획득하도록 지원하는 것을 특징으로 하는 방법이 제공된다.
일예로서, 상기 첫 세그먼테이션 마스크는 상기 (d) 단계에서 상기 흡수 마코프체인 그래프를 획득하는데 사용되는 인트라프레임 에지들만 있는 첫 흡수 마코프체인 그래프의 각 노드의 흡수 횟수를 임계값을 설정하여 얻되, 상기 첫 흡수 마코프체인 그래프의 일시 노드들은 특정 비율 이상으로 상기 제1 프레임 상 상기 대상 객체의 첫 GT 바운딩 박스와 중복되는 로컬 영역에 의해 결정되고, 상기 첫 흡수 마코프체인 그래프의 흡수 노드들은 상기 첫 흡수 마코프체인 그래프의 일시 노드로 결정되지 않은 상기 제1 프레임 상 상기 ROI 내 로컬 영역에 의해 결정되는 것을 특징으로 하는 방법이 제공된다.
일예로서, (i) 상기 컴퓨팅 장치는 일련의 트래킹 결과를 얻기 위해 상기 현재 프레임 상 상기 대상 객체에 대한 상기 세그먼테이션 결과를 재귀적 방식으로 후속 프레임들에 전달하거나 전달하도록 하는 단계;를 더 포함한 방법이 제공된다.
본 발명의 다른 태양에 따르면, 흡수 마코프체인을 사용하여 이미지 상 대상 객체를 세그먼테이션하는 방법은, (a) 컴퓨팅 장치가 상기 이미지 상 상기 대상 객체를 포함한 바운딩 박스를 획득하거나 획득하도록 지원하는 단계; (b) 상기 컴퓨팅 장치가 상기 대상 객체를 둘러싼 배경에 대한 정보의 일부를 포함하도록 상기 바운딩 박스를 확대하여 상기 이미지 상 ROI(region of interest)를 획득하거나 획득하도록 지원하는 단계; (c) 상기 컴퓨팅 장치가 상기 이미지 상 상기 ROI 내 여러 로컬 영역에 대한 정보를 획득하거나 획득하도록 지원하는 단계; (d) 상기 컴퓨팅 장치가 상기 이미지 상 상기 ROI 내 상기 로컬 영역 중 적어도 일부를 사용하여 흡수 마코프체인 그래프를 구성하거나 구성하도록 지원하는 단계; 및 (e) 상기 컴퓨팅 장치가 흡수 횟수를 사용하여 상기 흡수 마코프체인 그래프 내 각 노드의 임계값을 정하여 상기 이미지 상 상기 대상 객체에 대한 세그먼테이션 결과를 획득하거나 획득하도록 지원하는 단계; 를 포함하되, 상기 흡수 마코프체인 그래프에는 (i) 상기 이미지 상 특정 비율 이상 상기 바운딩 박스와 중복되는 로컬 영역에 해당되는 일시(transient) 노드 세트와 (ii) 상기 일시 노드로 결정되지 않은 상기 이미지 상 상기 ROI 내 로컬 영역의 일부에 해당되는 흡수(absorbing) 노드 세트로 구성된 두 노드 부분집합을 포함하며, 상기 흡수 마코프체인 그래프 상 (i) 상기 일시 노드 및 (ii) 상기 흡수 노드 각각은 다른 흡수 노드까지의 단계 수인 흡수 횟수가 각각 존재하는 것을 특징으로 하는 방법이 제공된다.
일예로서, 상기 (d) 단계 이전에, 상기 컴퓨팅 장치는 상기 이미지 상의 상기 ROI 내 상기 로컬 영역 각각의 오리지널 피처를, 상기 오리지널 피처의 특성을 참조하여 결정되는 특정 연산을 수행하여, 임베디드 공간에 투영하거나 투영하도록 지원하는 단계;를 더 포함하는 것을 특징으로 하는 방법이 제공된다.
일예로서, 상기 컴퓨팅 장치는 적어도 하나의 회귀자로 회귀를 사용하여 상기 이미지 상 상기 ROI 내 상기 로컬 영역 각각의 상기 오리지널 피처를 투영하거나 투영하도록 지원하는 것을 특징으로 하는 방법이 제공된다.
일예로서, 상기 (e)단계 이후, (f) 상기 컴퓨팅 장치는 상기 흡수 마코프체인 그래프 상 특정한 수의 홉(hop) 내에 상기 일시 노드의 다수의 연결 구성요소를 획득하거나 획득하도록 지원하는 단계; (g) 상기 컴퓨팅 장치는 상기 다수의 연결 구성요소 중 하나의 연결 구성요소를 선택하거나 선택하도록 지원하되, 상기 선택된 하나의 연결 구성요소는 상기 이미지 상 대상 객체 대한 전체적 형상 모델에 가장 유사한 연결 구성요소인 단계; 및 (h) 상기 컴퓨팅 장치는 상기 선택된 하나의 연결 구성요소를 사용하여 상기 이미지 상 상기 대상 객체에 대해 상기 세그먼테이션 결과를 조정하거나 조정을 지원하여 조정된 세그먼테이션 결과와 그에 대응되는 트래킹 박스를 획득하는 단계;를 더 포함하는 방법이 제공된다.
본 발명의 또 다른 태양에 따르면, 흡수 마코프체인을 사용하여 동영상 데이터 프레임에서 대상 객체를 추적하는 컴퓨팅 장치는, 상기 동영상 데이터를 획득하기 위한 통신부 및 (i) 상기 동영상 데이터 내의 현재 프레임 상 대상 객체를 포함한 바운딩 박스와 상기 동영상 데이터 내의 이전 프레임에 있는 상기 대상 객체에 대한 세그먼테이션 결과를 획득하거나 획득하도록 지원하는 프로세스; (ii) 상기 대상 객체를 둘러싼 배경에 대한 정보의 일부를 포함하도록 상기 바운딩 박스를 확대하여 상기 현재 프레임 상의 ROI(region of interest)를 획득하거나 획득하도록 지원하는 프로세스; (iii) 상기 현재 프레임 상의 상기 ROI 안에 있는 여러 로컬 영역에 대한 정보를 획득하거나 획득하도록 지원하는 프로세스; (iv) 상기 현재 프레임에 있는 상기 ROI 내 상기 로컬 영역과 상기 이전 프레임에 있는 ROI 내 로컬 영역 중 적어도 일부를 사용하여 흡수 마코프체인 그래프를 구성하거나 구성하도록 지원하는 프로세스; 및 (v) 흡수 횟수를 사용하여 상기 흡수 마코프체인 그래프 내 각 노드의 임계값을 정하여 상기 현재 프레임 상 상기 대상 객체에 대한 세그먼테이션 결과를 획득하거나 획득하도록 지원하는 프로세스; 를 수행하는 프로세서를 포함하되, 상기 흡수 마코프체인 그래프는 (i) 상기 이전 프레임에 있는 상기 ROI 내 배경 정보를 포함한 로컬 영역에 해당되는 흡수(absorbing) 노드 세트와 (ii) 상기 현재 프레임에 있는 상기 ROI 내 상기 로컬 영역 및 상기 이전 프레임에 있는 상기 ROI 내의 상기 대상 객체에 대한 상기 세그먼테이션 결과와 관련된 로컬 영역에 해당되는 일시(transient) 노드 세트로 구성된 두 노드 부분집합을 포함하며, 상기 흡수 마코프체인 그래프는 인트라프레임 에지 세트와 인터프레임 에지 세트로 구성된 두 에지 부분집합을 포함하고, 상기 각 노드에서 임의의 흡수 노드까지의 단계 수인 노드의 흡수 횟수가 각 노드별로 존재하는 것을 특징으로 하는 컴퓨팅 장치가 제공된다.
일예로서, 상기 (iv) 프로세스 이전에, 상기 프로세서는 상기 현재 프레임 상 상기 ROI 내 상기 로컬 영역 각각의 오리지널 피처와 상기 이전 프레임 상 상기 ROI 내 상기 로컬 영역 각각의 오리지널 피처를, 상기 오리지널 피처의 특성을 참조하여 결정되는 특정 연산을 수행하여, 임베디드 공간에 투영하거나 투영하도록 지원하는 프로세스;를 더 수행하는 것을 특징으로 하는 컴퓨팅 장치가 제공된다.
일예로서, 상기 프로세서는 적어도 하나의 회귀자로 회귀를 사용하여 상기 현재 프레임 상 상기 ROI 내 상기 로컬 영역 각각의 상기 오리지널 피처와 상기 이전 프레임 상 상기 ROI 내 상기 로컬 영역 각각의 상기 오리지널 피처를 투영하거나 투영하도록 지원하는 것을 특징으로 하는 컴퓨팅 장치가 제공된다.
일예로서, 상기 프로세서는, 상기 (iv) 프로세스에서, (iv-1) 상기 적어도 하나의 회귀자를 통해 상기 현재 프레임 상 상기 ROI와 상기 이전 프레임 상 상기 ROI 내 상기 로컬 영역의 각 투영된 피처를 사용하여 획득된 상기 흡수 마코프체인 그래프 내 각 노드와 관련된 각 회귀 점수를 획득하거나 획득하도록 지원하는 프로세스; (iv-2) 상기 흡수 마코프체인 그래프 내 각 노드 중 선택되어 서로 연결된 두 노드와 각각 관련된 각 회귀 점수간의 유사도를 산정하거나 산정하도록 지원하여 상기 흡수 마코프체인 그래프 상 각 에지에 대응되는 가중치를 얻는 프로세스; (iv-3) 대응되는 가중치를 기반으로 상기 각 에지에 대한 각 전이 확률을 산정하거나 산정하도록 지원하는 프로세스; 및 (iv-4) 상기 흡수 마코프체인 그래프 내 상기 각각의 노드에 대한 각 흡수횟수를 얻기 위해 상기 (iv-3) 프로세스에서 산정된 그에 대응되는 전이 확률을 참조하여 랜덤 워크로 상기 흡수 마코프체인 그래프를 트래킹하거나 트래킹하도록 지원하는 프로세스;를 더 수행하는 것을 특징으로 하는 컴퓨팅 장치가 제공된다.
일예로서, 상기 프로세서는, 상기 (v)프로세스 이후, (vi) 상기 흡수 마코프체인 그래프 상 특정한 수의 홉(hop) 내에 상기 일시 노드의 다수의 연결 구성요소를 획득하거나 획득하도록 지원하는 프로세스; (vii) 상기 다수의 연결 구성요소 중 하나의 연결 구성요소를 선택하거나 선택하도록 지원하되, 상기 선택된 하나의 연결 구성요소는 상기 현재 프레임 상 대상 객체 대한 전체적 형상 모델에 가장 유사한 연결 구성요소인 프로세스; 및 (viii) 상기 선택된 하나의 연결 구성요소를 사용하여 상기 현재 프레임 상 상기 대상 객체에 대해 상기 세그먼테이션 결과를 조정하거나 조정을 지원하여 조정된 트래킹 결과와 그에 대응되는 트래킹 박스를 획득하는 프로세스;를 더 포함하는 컴퓨팅 장치가 제공된다.
본 발명의 또 다른 태양에 따르면, 흡수 마코프체인(AMC)을 사용하여 이미지 상 대상 객체를 세그먼테이션하는 컴퓨팅 장치는, 상기 이미지를 획득하기 위한 통신부; (i) 상기 이미지 상 상기 대상 객체를 포함한 바운딩 박스를 획득하거나 획득하도록 지원하는 프로세스; (ii) 상기 대상 객체를 둘러싼 배경에 대한 정보의 일부를 포함하도록 상기 바운딩 박스를 확대하여 상기 이미지 상 ROI(region of interest)를 획득하거나 획득하도록 지원하는 프로세스; (iii) 상기 이미지 상 상기 ROI 내 여러 로컬 영역에 대한 정보를 획득하거나 획득하도록 지원하는 프로세스; (vi) 상기 이미지 상 상기 ROI 내 상기 로컬 영역 중 적어도 일부를 사용하여 흡수 마코프체인 그래프를 구성하거나 구성하도록 지원하는 프로세스; 및 (v) 흡수 횟수를 사용하여 상기 흡수 마코프체인 그래프 내 각 노드의 임계값을 정하여 상기 이미지 상 상기 대상 객체에 대한 세그먼테이션 결과를 획득하거나 획득하도록 지원하는 프로세스;를 수행하는 프로세서;를 포함하되, 상기 흡수 마코프체인 그래프에는 (i) 상기 이미지 상 특정 비율 이상 상기 바운딩 박스와 중복되는 로컬 영역에 해당되는 일시(transient) 노드 세트와 (ii) 상기 일시 노드로 결정되지 않은 상기 이미지 상 상기 ROI 내 로컬 영역의 일부에 해당되는 흡수(absorbing) 노드 세트로 구성된 두 노드 부분집합을 포함하며, 상기 흡수 마코프체인 그래프 상 (i) 상기 일시 노드 및 (ii) 상기 흡수 노드 각각은 다른 흡수 노드까지의 단계 수인 흡수 횟수가 각각 존재하는 것을 특징으로 하는 컴퓨팅 장치가 제공된다.
일예로서, 상기 (iv) 프로세스 이전에, 상기 프로세서는 상기 이미지 상의 상기 ROI 내 상기 로컬 영역 각각의 오리지널 피처를, 상기 오리지널 피처의 특성을 참조하여 결정되는 특정 연산을 수행하여, 임베디드 공간에 투영하거나 투영하도록 지원하는 프로세스;를 더 수행하는 것을 특징으로 하는 컴퓨팅 장치가 제공된다.
일예로서, 상기 프로세서는, 상기 (v) 프로세스 이후, (vi) 상기 흡수 마코프체인 그래프 상 특정한 수의 홉(hop) 내에 상기 일시 노드의 다수의 연결 구성요소를 획득하거나 획득하도록 지원하는 프로세스; (vii) 상기 다수의 연결 구성요소 중 하나의 연결 구성요소를 선택하거나 선택하도록 지원하되, 상기 선택된 하나의 연결 구성요소는 상기 이미지 상 대상 객체 대한 전체적 형상 모델에 가장 유사한 연결 구성요소인 프로세스; 및 (viii) 상기 선택된 하나의 연결 구성요소를 사용하여 상기 이미지 상 상기 대상 객체에 대해 상기 세그먼테이션 결과를 조정하거나 조정을 지원하여 조정된 세그먼테이션 결과와 그에 대응되는 트래킹 박스를 획득하는 프로세스;를 더 수행하는 컴퓨팅 장치가 제공된다.
본 발명에 따른, 흡수 마코프체인을 사용하여 동영상 데이터 프레임에서 대상 객체를 추적하는 방법에 따르면, 비정형적이고 변형가능한 대상 객체들에 대한 비주얼 트래킹에 흡수 마코프체인을 적용하는 단순하고 새로우며 강력한 세그먼테이션에 의한 트래킹 알고리즘과 프레임워크를 제공할 수 있다.
또한, 본 발명에 따르면, 임베디드 공간 내 초평면 위에 대상 객체들의 피처를 투영하여 높은 정확도로 대상 객체들을 추적하고 분할할 수 있고, 최신 세그먼테이션을 기반으로 트래킹 알고리즘과 비교하여 실질적인 성능 향상을 성취할 수 있다.
도 1은 프레임 상 ROI(region of interest)에 중간 레벨 세그먼테이션 알고리즘을 적용하여 복수의 중간 레벨 큐, 예로 수퍼픽셀로 분할된 상기 프레임 상 ROI를 나타내는 도면이다.
도 2는 수퍼픽셀로부터 얻은 오리지널 피처들로 흡수 마코프체인을 구성하는 과정을 도식적으로 나타낸 도면이다.
도 3은 본 발명의 일 실시예에 따라 두 연속 프레임으로 흡수 마코프체인을 구성하는 과정을 도식적으로 나타낸 도면이다.
도 4a는 본 발명의 일 실시예에 따라 임베딩 공간 내 투영된 피처로 흡수 마코프체인 그래프를 구성하는 과정을 개략적으로 도식한 도면이다.
도 4b는 본 발명의 일 실시예에 따라 특정 회귀모델과 방정식들을 이용하여 임베딩 공간 내 투영된 피처로 상기 흡수 마코프체인 그래프를 구성하는 과정을 나타낸 도면이다.
도 5a는 본 발명의 일 실시예에 따라 컬러 피처들과 특정 회귀모델이 있는 흡수 마코프체인 그래프를 구성하는 과정을 보여주는 도면이다.
도 5b는 본 발명의 일 실시예에 따라 상기 흡수 마코프체인 내 인터프레임 에지를 구성하는 방법을 나타내는 도면이다.
도 6은 본 발명의 일 실시예에 따라 첫 세그먼테이션 마스크를 얻는 과정을 나타내는 도면이다.
도 7은 본 발명의 일 실시예에 따라 세그먼테이션 마스크와 대상 객체에 대한 세그먼테이션 결과 및 바운딩 박스 등 대상 객체에 대한 트래킹 결과를 예시적으로 보여주는 도면이다.
도 8a는 대상 객체에 대한 GT(ground-truth) 세그먼테이션 결과를 예시적으로 나타내는 도면이다.
도 8b는 공개된 트래킹 알고리즘으로 오리지널 피처를 사용하여 얻은 대상 객체에 대한 세그먼테이션 결과를 예시적으로 나타내는 도면이다.
도 8c는 공개된 트래킹 알고리즘으로 투영된 피처를 사용하여 얻은 대상 객체에 대한 세그먼테이션 결과를 예시적으로 보여주는 도면이다.
도 8d는 본 발명의 일 실시예에 따라 프레임의 ROI 내 수퍼픽셀의 오리지널 피처에 대한 투영 결과를 예시적으로 나타내는 도면이다.
도 9는 본 발명의 일 실시예에 따라 세그먼테이션 결과에 대한 가중치 조정에 의해 사용되는 각기 다른 계수에 대한 영향을 나타내는 도면이다.
도 10은 본 발명의 일 실시예에 따라 각기 다른 흡수 횟수를 기반으로 세그먼테이션 결과 비교를 나타내는 도면이다.
도 11은 본 발명의 일 실시예에 따라 전체적 형상 모델 적용의 이점을 예시적으로 나타내는 도면이다.
도 12는 본 발명의 일 실시예에 따라 수퍼픽셀의 1홉 및 2홉 근방계와 병합한 비교 결과를 예시적으로 나타낸 도면이다.
후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예에 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.
이하, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 하기 위하여, 본 발명의 바람직한 실시예들에 관하여 첨부된 도면을 참조하여 상세히 설명하기로 한다.
본 발명에서 공개한 트래킹 알고리즘은 비디오 데이터, 예로 비디오 시퀀스 또는 비디오 프레임에서 대상 객체들을 추적하는 것을 목적으로 하는데, 그러한 비디오 데이터 내에서 대상 객체들의 크기나 동작은 빠르고 지속적으로 바뀐다. "프레임"과 "이미지" 및 "프레임 이미지"라는 용어들은 본 공개특허에서 혼용된다.
도 1은 프레임 상 ROI(region of interest)(100)에 중간 레벨 세그먼테이션 알고리즘을 적용하여 복수의 중간 레벨 큐, 예로 수퍼픽셀(101)로 분할된 상기 프레임 상 ROI(100)를 나타내는 도면이다.
본 발명에서의 트래킹 알고리즘은 수퍼픽셀(101)을 중간 레벨 큐로 지정하나 반드시 이에 한하는 것은 아니다. 프레임 상 ROI(100) 내에서 한 세트의 수퍼픽셀(101)을 얻기 위해 SLIC 등 수퍼픽셀 세그먼테이션 알고리즘이 포함된다.
한 세트의 수퍼픽셀(101)은 다음과 같이 획득된다. 프레임 상 상기 ROI(100)은 다수의 로컬 영역으로 분할되며, 이후 각 로컬 영역 내 픽셀들은 수퍼픽셀로 클러스터 된다. 상기 프레임 상 상기 ROI(100) 내 수퍼픽셀의 수는 프레임 상 상기 ROI(100)의 크기에 비례한다. 여기서, 각 ROI 내 수퍼픽셀의 최대 수는 600으로 설정한다. 참고로, 로컬 영역은 수퍼픽셀로 표시되나 당업자들은 로컬 영역이 이에 한하지 않을 수 있음을 알고 있음이 명백하다.
수퍼픽셀(101)과 같은 중간 레벨 큐는 표현상 유효성 때문에 다양한 컴퓨터 비전 태스크에 사용되어 왔다. 바운딩 박스나 픽셀의 정보와 비교하여, 중간 레벨 큐, 예를 들어, 수퍼픽셀(101)은 대상 객체들의 피처 레벨 및 시만틱(semantic) 레벨을 모델링하는데 효과가 있을 수 있다. 또한, 수퍼픽셀의 수가 픽셀의 수보다 훨씬 적은 것은 확실하기 때문에 수퍼픽셀(101)을 사용할 경우에는 세련된 이미지 프로세싱과 컴퓨터 비전 태스크의 복잡성을 크게 낮춘다.
도 2는 수퍼픽셀(101)에서 얻는 오리지널 피처들로 흡수 마코프체인 그래프(203)를 구성하는 과정을 도식적으로 나타낸 도면이다.
도 2를 참조하여, 피처 공간(200)에서 B1, B2, B3(202)은 배경 피처들을 나타내는 반면, F1, F2, F3, F4(201)는 전경 피처들을 나타낸다. 각 전경 피처(201)는 상기 흡수 마코프체인 그래프(203)에 있는 각각의 일시 노드(204)로 전환되는 반면, 각 배경 피처(202)는 상기 흡수 마코프체인 그래프(203)에서 각 흡수 노드(205)로 변환된다.
도 3은 본 발명의 일 실시예에 따라 두 연속 프레임으로 흡수 마코프체인 그래프를 구성하는 과정을 도식적으로 나타내는 도면이다.
도 3을 참조하여, 트래킹 알고리즘은 도 3에 도시된 상기 두 연속 프레임 t(301) 및 t-1(302)에서 ROI(100) 내 모든 수퍼픽셀(101)을 사용하여 상기 흡수 마코프체인 그래프(203)를 구성한다. 여기서, 상기 두 연속 프레임은 시간 도메인에서 서로 이웃한 프레임을 의미하나 반드시 그에 한하지는 않는다. 두 프레임 상 전경 수퍼픽셀(303)과 프레임 t(301) 내 배경 수퍼픽셀들(306)은 상기 흡수 마코프체인 그래프(203) 내 일시 노드(204)에 맵핑되는 반면, 상기 이전 프레임 t-1(302)에서 배경 수퍼픽셀(304)에 해당되는 꼭지점들, 즉, 노드들은 흡수 노드(205)를 생성하는데 사용된다. 특히, 프레임 t(301)에서 배경 수퍼픽셀(306)을 나타내는 B1이 그러하다.
또한, 상기 흡수 마코프체인 그래프(203)에는 두 유형의 에지가 있다. 인트라프레임 에지 세트와 인터프레임 에지 세트는 상기 흡수 마코프체인 그래프(203) 내 모든 에지를 구성한다. 트래킹 알고리즘은 상기 흡수 마코프체인 그래프(203) 내 인트라프레임 에지 중 하나를 프레임 t(301)의 ROI 내 두 인근 수퍼픽셀 또는 프레임 t-1(302)의 ROI 내 두 인근 수퍼픽셀을 가지고 생성할 수 있다. 또한, 트래킹 알고리즘은 상기 두 연속 프레임 t(301) 및 t-1(302)에서 수퍼픽셀간에 시간적 인접성을 결정하기 위해 동작 정보를 통합하여 상기 흡수 마코프체인 그래프(203)에서 인터프레임 에지 중 하나를 생성할 수 있다. 경우에 따라 서로 인접하지 않은 각기 다른 두 프레임은 인터프레임 에지 중 하나를 생성하는데 사용될 수 있다.
즉, 인트라프레임 에지들이 동일한 프레임에서 꼭지점의 인접성을 기반으로 2 홉 내에서 수퍼픽셀을 연결하는 동안 인터프레임 에지들은 동작 정보로 찾은 공간 근접성에 의해 생성된다. 참고로, 1홉 내 노드란 직접 연결된 이웃이고, 2홉 내 노드란 직접 연결된 이웃의 이웃을 의미한다. 상기 흡수 마코프체인 그래프(203)에서 모든 에지는 양방향이며, 흡수 노드(205)로 들어가는 경우를 제외하고 대칭적 에지 가중치를 가진다. 이러한 에지들은 상기 흡수 마코프체인 그래프(203)의 흡수 속성을 만족시키는 단방향이다.
도 4a는 본 발명의 일 실시예에 따라 임베딩 공간 내 투영된 피처로 흡수 마코프체인 그래프를 구성하는 과정을 개략적으로 도식한 도면이다
도 4a를 참조하여, 피처 공간(200) 내 수퍼픽셀의 피처는 두 가지 유형, 예로, 전경 피처(201)와 배경 피처(202)로 분류된다. 추적할 대상 객체와 연관된 영역 내 수퍼픽셀은 전경 수퍼픽셀이나 전경 피처(201)로 지정되는데, 여기서 대상 객체들과 관련된 수퍼픽셀 이외 수퍼픽셀들은 배경 피처 또는 배경 수퍼픽셀(202)로 분류된다.
도 4a에서 보다시피, 적어도 하나의 회귀자(regressor)가 있는 회귀모델(regression model)을 이용하여 투영이 이루어진다. 임베딩 공간(400) 내 투영된 초평면(401)에서 동일한 또는 유사한 영역에서 추출한 피처들은 유사도가 높은 반면, 다른 영역에서 추출한 피처들의 경우 유사도가 낮다. 수퍼픽셀의 오리지널 피처를 투영하는 경우 세그먼테이션 결과, 즉, 트래킹 결과의 정확성을 개선하는 결과를 가져올 수 있다.
도 4b는 본 발명의 일 실시예에 따라 특정 회귀모델과 방정식들을 이용하여 임베딩 공간 내 투영된 피처로 상기 흡수 마코프체인 그래프를 구성하는 과정을 나타낸 도면이다.
예로, 산정 과정은 도 4b를 참조하여 아래 기술된 공식과 절차를 이용하여 간단히 도시된다. 각 수퍼픽셀의 오리지널 피처를 투영한 후 동일한 또는 유사한 영역에서 추출한 피처들은 동일한 라벨, 예로 +1이나 -1 중 하나를 갖게 되며, 다른 영역에서 추출한 피처는 정반대의 라벨, 예로 +1과 -1을 각각 가질 수 있다.
또한, 상기 흡수 마코프체인 그래프(203) 내 동일하거나 유사한 영역에서 추출한 두 피처와 관련한 상기 회귀 점수(403)의 유사도(404) 수치는 상기 흡수 마코프체인 그래프(203) 내 다른 두 노드, 예로, 다른 영역에서 추출한 두 피처의 회귀 점수(403)의 유사도(404) 수치보다 현저히 높은 것이 확실하다.
도 4b에 표시된 일례로, F1과 F3의 회귀 점수(403) 간 유사도(404), 즉, 상기 흡수 마코프체인 그래프(203) 내 에지 연결 노드 F1 및 F3의 에지 가중치는 0.61이고, B1 및 B3의 상기 회귀 점수(403)간 유사도(404)는 0.74이며, F3 및 B2의 상기 회귀 점수(403)간 유사도(404)는 0.13이다. 그러므로, 두 노드의 상기 회귀 점수(403)간 더 높은 유사도, 즉, 더 높은 에지 가중치가 상기 흡수 마코프체인 그래프(203)에서 더 굵은 선으로 표시되며, 더 높은 에지 가중치가 있는 에지는 피처가 동일하거나 유사한 영역에서 추출되는 두 노드, 예로 전경이나 배경을 연결한다. 수퍼픽셀의 오리지널 피처를 투영하는 효과는 도 4b에서 수치로 입증된다.
도 5a는 본 발명의 일 실시예에 따라 컬러 피처들과 특정 회귀모델이 있는 흡수 마코프체인 그래프를 구성하는 과정을 보여주는 도면이다.
도 5a를 참조하면, 상기 흡수 마코프체인 그래프(203)를 구성하는 과정과 관련하여 좀더 상세한 그림이 제시된다. 프레임 t(301), 즉, 상기 현재 프레임상 상기 ROI(100)는 대상 객체(502), 즉, 전경을 둘러싼 고정된 중심점으로 바운딩 박스를 확대, 예로, 1.7배 확대하여 얻는다. 바운딩 박스는 프레임 t-1(302), 즉, 상기 이전 프레임에서 세그먼테이션 결과에 광학 흐름을 적용하여 획득한다. 좀더 자세히 말하면, 상기 현재 프레임 상 대상 객체(502)를 포함한 바운딩 박스는 상기 이전 프레임 상 대상 객체(502)의 세그먼테이션 결과를 변형하고 변형된 결과를 포함한 가장 꽉 찬 바운딩 박스를 찾아 획득한다. 변형 결과는 픽셀 단위의 광학 흐름을 통해 대상 객체(502)의 동작을 추정하여 얻는다. 다시 말해, 트래킹 알고리즘은 대상 객체(502)의 분명한 동작 패턴을 찾아 상기 이전 프레임의 ROI(100) 내 수퍼픽셀을 변형한다. 이에, EPPM은 픽셀 단위의 광학 흐름을 얻기 위해 채택되지만 반드시 이에 한하는 것은 아니다.
상기 현재 프레임 t(301) 및 상기 이전 프레임 t-1(302)의 ROI(100) 내에 있는 모든 수퍼픽셀을 사용하여 상기 흡수 마코프체인 그래프(203)를 구성한 후, 각 노드의 흡수 횟수를 사용하여 상기 흡수 마코프체인 그래프(203)에서 각 노드를 임계화(thresholding) 하여 상기 현재 프레임 내 대상 객체(502)에 대한 세그먼테이션 결과를 획득한다. 현재 프레임에서 대상 객체(502)에 대한 세그먼테이션 결과는 회귀적 방식으로 다음 프레임에 전달이 되어 일련의 트래킹 결과들을 얻을 수 있다.
참고로, 각 노드는 랜덤 워크에 의해 상기 흡수 마코프체인 그래프(203) 상 임의의 흡수 노드(205)로의 단계 수인 자신의 흡수 횟수가 있다. 그리고 각 노드는 상기 현재 프레임 상 ROI(100) 내 모든 일시 노드(204)의 흡수 횟수의 평균을 내어 결정된 임계값을 기반으로 임계화하나, 이에 한하지는 아니한다. 다른 방법으로, 현재 프레임(301) 상 ROI(100) 내 일시 노드(204)의 적어도 일부를 이용하여 임계값을 결정할 수 있다.
한편, 대상 객체에 대한 세그먼테이션 결과는 수퍼픽셀들의 오리지널 피처의 특성을 참조하여 선택한 연산을 수행하여 현재 프레임(301) 및 상기 이전 프레임(302) 상 ROI(100) 내 모든 수퍼픽셀의 오리지널 피처를 임베딩 공간에 있는 초평면 위에 투영하여 획기적으로 향상될 수 있다.
예를 들어, 도 5에 도시된 바와 같이, LAB 공간(503)에 있는 중간색이 각 수퍼픽셀에 대한 피처로 선택되고, 서포트 벡터 회귀자(504)가 회귀모델로 적용되는 경우, 엔드 수퍼픽셀과 관련된 상기 회귀 점수의 유사도가 위에서 언급한 상기 흡수 마코프체인 그래프(203)에서 각 에지에 대한 에지 가중치를 결정한다.
다시 도 5a를 참조하면, 상기 흡수 마코프체인 그래프(203)에 굵게 표시한 에지들은 상기 흡수 마코프체인 그래프(203)에서 연결된 두 노드의 회귀 점수간 유사도가 높은 것을 나타낸다. 여기서, 상기 회귀 점수는 동일한 라벨을 가진 수퍼픽셀간 차이를 최소화하면서 각기 다른 라벨을 가진 수퍼픽셀간 차이를 최대화하는 서포트 벡터 회귀자(504)를 트레이닝하여 얻는다.
다시 말해, 노드의 에지 가중치, 동일한 라벨을 가진 꼭지점이 각기 다른 라벨이 있는 노드보다 커야 하기 때문에, 동일한 영역, 예로, 전경이나 배경 중 하나 이내에 수퍼픽셀간 차이를 최소화하면서 전경과 배경 수퍼픽셀간 차이를 최대화하는 대조 점수를 획득할 수 있다.
여기서, 위에서 기술한 바와 같이, 라벨은 상기 흡수 마코프체인 그래프 내 각각의 노드(203) 각 노드 중 전경으로 분류된 노드의 경우 +1로, 배경으로 분류된 노드의 경우 -1로 표시된다. 참고로, 각 수퍼픽셀의 경우 피처는 딥 러닝으로 얻은 색상이나 패턴 또는 피처 벡터가 될 수 있다.
특히, 서포트 벡터 회귀자(504)의 목적 함수는 아래와 같이 정의된다.
Figure pat00001
(공식 1)
여기서, x는 피처, C는 상수, 예로, 10이며,
Figure pat00002
는 비선형 피처 맵핑 함수를 나타낸다. 방사 기준 함수는 아래와 같이 내포된 비선형 피처 맵핑에 대한 커널로 적용되었다.
Figure pat00003
(공식 2)
여기서
Figure pat00004
는 상수로 예로, 1이다. 회귀자를 트레이닝한 후, 임의 입력 피처, 예로 피처 벡터의 회귀 점수는 아래 공식에 의해 정해진다.
Figure pat00005
(공식 3)
다시 말해, 상기 흡수 마코프체인 그래프(203)에서 각 노드와 관련된 각 회귀 점수는 각 노드와 관련된 수퍼픽셀의 투영된 피처를 이용하여 위에 기술한 공식으로 획득된다. 이후, 각 에지의 에지 가중치가 엔드 노드의 회귀 점수간 유사도를 산정하여 얻어진다. 그 공식은 다음과 같다.
Figure pat00006
(공식 4)
여기서, ri 및 rj은 두 연결 노드의 회귀 점수이고,
Figure pat00007
r는 상수로, 예로 0.1이다.
참고로, 서포트 벡터 회귀자(504)를 트레이닝하기 위해 상기 이전 프레임과 제1 프레임, 즉, 첫 프레임에서 대상 객체(502)와 관련하여 수퍼픽셀은 전경 노드로 처리될 수 있으나 상기 이전 프레임 및 제1 프레임에서 대상 객체(502)와 관련한 수퍼픽셀을 제외한 수퍼픽셀과 상기 현재 프레임 상 ROI(100)의 경계에 있는 수퍼픽셀은 배경 노드로 처리된다. 여기서, 상기 현재 프레임 상 ROI(100)의 경계에 있는 수퍼픽셀들은 보이지 않는 배경을 나타내고, 제1 프레임에서 얻은 정보는 드리프트 문제를 피하기 위해 활용된다.
도 5b는 본 발명의 일 실시예에 따라 상기 흡수 마코프체인 내 인터프레임 에지를 구성하는 방법을 나타내는 도면이다.
도 5b를 참조하면, 두 개의 다른 프레임이 도시되어 있다. 여기서 상기 두 개의 다른 프레임은 프레임 t-1(302) 및 프레임 t(301)로 표시된 연속한 두 프레임이지만, 당업자들에게 상기 두 개의 다른 프레임에 한하지 않는다는 사실은 분명하다.
도 5b에서 각 사각형은 픽셀을 나타낼 수 있다. 각 프레임에 있는 동일한 밝기의 사각형들은 동일한 로컬 영역, 예로 수퍼픽셀에 있음을 나타낸다. 로컬 영역의 모양, 예로, 수퍼픽셀의 모양은 각 프레임 내 대상 객체(502) 또는 배경이 색상이나 등고선에서 변경이 있을 수 있기 때문에 각 프레임별로 다를 수 있다.
픽셀 단위의 광학 흐름을 이용하여 인터프레임 에지가 생성될 수 있으나, 반드시 이에 한하는 것은 아니다. 도 5b에서 직선 화살표는 프레임 t-1에 있는 어두운 회색으로 된 수퍼픽셀(505) 내 각 픽셀에 대해 산정한 광학 흐름을 나타낼 수 있다. 프레임 t에 있는 수퍼픽셀(506)이 수퍼픽셀(505)에 원래 속해 있는 하나의 픽셀을 포함하는 경우 프레임 t에 있는 수퍼픽셀은 프레임 t-1에 있는 어두운 회색으로 된 수퍼픽셀(505)이 있는 인터프레임 에지를 생성할 수 있다. 그러므로, 도 5b에 있는 두 곡선은 생성된 각각의 인터프레임 에지를 나타낼 수 있다.
상세하게는, 인터프레임 에지 중 하나는 프레임 t-1에 있는 어두운 회색으로 된 수퍼픽셀(505) 및 프레임 t에 있는 동일한 어두운 회색으로 된 수퍼픽셀(506) 사이에 생성되는 반면, 인터프레임 에지 중 다른 하나가 프레임 t-1에 있는 동일한 어두운 회색으로 된 수퍼픽셀(505)과 프레임 t에 있는 흰색으로 된 슈퍼픽셀(507) 사이에 생성된다. 참고로, 상기 흡수 마코프체인 그래프에 있는 에지들의 두 유형, 즉 인터프레임 에지와 인트라프레임 에지에 대한 에지 가중치 산정에는 차이가 없다.
도 6은 본 발명의 일 실시예에 따라 첫 세그먼테이션 마스크를 얻는 과정을 나타내는 도면이다.
도 6에 도시된 바와 같이, 첫 세그먼테이션 마스크(603)는 오직 인트라프레임 에지만 있는 첫 흡수 마코프체인 그래프에서 모든 일시 노드의 흡수 횟수를 간단히 계산하고, 모든 일시 노드의 흡수 횟수를 임계화하여 얻을 수 있다. 비디오 데이터의 제1 프레임에 해당되는 첫 프레임만을 이용하여 구성되는 첫 흡수 마코프체인 그래프에는 인터프레임 에지가 없기 때문이다. 비디오 데이터의 첫 프레임에서 대상 객체에 대한 바운딩 박스는 다양한 방법으로 제공될 수 있다.
자세히 말하면, 트래킹 알고리즘은 첫 프레임에 있는 바운딩 박스 외부에 있는 수퍼픽셀(602)을 첫 흡수 마코프체인 그래프에서 흡수 노드, 전경과 관련된 수퍼픽셀(601)을 일시 노드라 하며, 첫 흡수 마코프체인 그래프에서 각 일시 노드의 각 흡수 횟수를 임계화하여 첫 세그먼테이션 마스크(603)를 얻는다.
특히, 첫 흡수 마코프체인 그래프에 있는 일시 노드는 특정 비율, 예로 50% 이상 대상 객체의 첫 GT 바운딩 박스와 중복되는 수퍼픽셀에 의해 제공되고, 첫 흡수 마코프체인 그래프에 있는 흡수 노드는 대상 객체에 대해 확대된 바운딩 박스, 즉, ROI(100) 내 일시 노드에 해당되지 않는 수퍼픽셀에 의해 제공된다.
도 7은 본 발명의 일 실시예에 따라 세그먼테이션 마스크와 대상 객체에 대한 세그먼테이션 결과 및 바운딩 박스 등 대상 객체에 대한 트래킹을 예시적으로 보여주는 도면이다.
도 7을 참조하면, 트래킹 결과에는 흡수 횟수를 이용하여 상기 흡수 마코프체인 그래프 내 각각의 노드(203)를 임계화하여 획득한 대상 객체 703, 세그먼테이션 마스크 702, 바운딩 박스 701에 대한 세그먼테이션 결과가 포함되나 트래킹 결과가 이에 한하지 않을 수 있다. 랜덤 워커는 전이 확률을 참조하여 상기 흡수 마코프체인 그래프(203) 내 각각의 노드에 대한 흡수 횟수를 얻기 위해 상기 흡수 마코프체인 그래프(203)를 추적한다. 전이 확률은 아래에서 좀더 자세히 설명한다.
도 8a는 대상 객체에 대한 GT(ground-truth) 세그먼테이션 결과를 예시적으로 나타내는 도면이다.
특히, 도 8a의 오른쪽 하단 코너에 있는 "100.0"은 도 8a가 GT 세그먼테이션 결과 그 자체를 의미한다는 표시이다.
도 8b 내지 도 8c에서 각각 중복비율을 비교하기 위한 중복비율은 대상 객체에 대한 GT 세그먼테이션 결과(801)와 대상 객체에 대해 추정되는 세그먼테이션 결과(802, 803)의 픽셀의 교집합 비율로 정의할 수 있다. 여기서, 추적할 대상 객체는 농구선수이다.
도 8b는 공개된 트래킹 알고리즘으로 오리지널 피처를 사용하여 얻은 대상 객체에 대한 세그먼테이션 결과를 예시적으로 나타내는 도면이다.
도 8b를 참조하면, 대상 객체, 즉, 농구선수의 배경에서 대상 객체를 세그먼테이션하는 일은 고안하여 공개된 트래킹 알고리즘을 적용하여 이루어진다. 트래킹 알고리즘은 위에서 기술한 상기 이전 프레임에서 전달된 세그먼테이션 결과를 이용한다. 여기서, 각각의 수퍼픽셀의 오리지널 피처는 수퍼픽셀 내 픽셀의 평균 RGB값으로 정의된다.
도 8b에 도시된 바와 같이, 프레임 이미지의 배경에서 관중의 얼굴과 손의 세그먼트는 전경으로 간주된다. 그러므로, 트래킹 알고리즘은 사라진 전경 수퍼픽셀로 인해 단편화된 대상 세그먼테이션 마스크를 생성할 수 있으며, 생성된 대상 세그먼테이션 마스크는 긍정 오류 수퍼픽셀을 포함할 수 있다.
컬러값이 피처 서술자로 선택되기 때문에, 트래킹 알고리즘으로는 배경에 있는 관중들의 얼굴과 손의 색상값이 추적할 대상 객체, 즉, 농구선수의 색상값과 동일하거나 유사하기 때문에 농구선수, 즉, 대상 객체의 피처와 배경에 있는 관중의 피처를 구별하기가 상당히 어렵다. 그러므로, 이 세그먼테이션 결과(802)에서 중복비율은 68.6가 된다.
이에 따라, 수퍼픽셀의 오리지널 피처를 투영하지 않으면, 세그먼테이션 결과(802) 또는 대상 세그먼테이션 마스크는 전경 수퍼픽셀과 배경 수퍼픽셀 간의 예상하지 못한 피처 유사성 및/또는 전경 수퍼픽셀 간 잠재적 피처의 비유사성으로 인해 노이즈가 발생할 수 있다.
도 8c는 공개된 트래킹 알고리즘으로 투영된 피처를 사용하여 얻은 대상 객체에 대한 세그먼테이션 결과를 예시적으로 보여주는 도면이다.
도 8c를 참조하면, 대상 객체에 대한 세그먼테이션 결과(803)는 대상 객체와 관련된 피처들을 1에 투영하고, 배경에 관련된 피처들을 0에 투영하여 획득한다. 도 8c에 있는 중복비율이 91.9로 나타나므로, 수퍼픽셀에 대해 투영된 피처를 사용하는 것은 위에 표시된 도 8b 및 도8c에 있는 세그먼테이션 결과 고안된 트래킹 알고리즘으로 수퍼픽셀의 오리지널 피처를 사용하는 것보다 효과적이다.
도 8d는 본 발명의 일 실시예에 따라 프레임의 ROI 내 수퍼픽셀의 오리지널 피처에 대한 투영 결과를 예시적으로 나타내는 도면이다.
도 8d에 표시된 바와 같이, ROI(100) 내 수퍼픽셀의 일부에 대해 투영된 피처값은 그에 대해 투영된 피처값이 1에 가까우므로 희고 밝은 색으로 묘사되는 반면, ROI(100) 내 수퍼픽셀의 다른 일부에 대해 투영된 피처값은 투영된 피처값이 0에 가까우므로 검고 어두운 색으로 묘사된다. 도 8d에서 804로 지칭되는 수퍼픽셀은 긍정 오류 수퍼픽셀이고, 805로 지칭되는 수퍼픽셀은 부정 오류 수퍼픽셀이다. 즉, 투영하더라도 잘못 분류된 수퍼픽셀들이 여전히 존재할 수 있지만 그림 내 중복비율이 나타나면 세그먼테이션 결과는 실질적으로 개선이 된다.
도 9는 본 발명의 일 실시예에 따라 세그먼테이션 결과에 대한 가중치 조정에 의해 사용되는 각기 다른 계수에 대한 영향을 나타내는 도면이다.
도 9의 (a)를 참조하면, 계속 동작을 바꾸는 특정 대상 객체에 대한 비디오 시퀀스 입력 프레임이 도시되어 있으며, 도 9의 (b)에는 특정 대상 객체, 즉 여성 체조선수에 대한 GT 세그먼테이션 결과를 나타낸다.
위에서 언급한 전이 확률은 해당되는 에지 가중치를 기반으로 상기 흡수 마코프체인 그래프(203)에 있는 모든 에지에 대해 얻을 수 있다. 그러나 각 에지 가중치는 전경과 배경 수퍼픽셀의 흡수 횟수에 대한 특수성을 증가시키도록 조정될 수 있다.
조정된 각각의 에지 가중치는 아래 공식을 통해 얻을 수 있다.
Figure pat00008
(공식 5)
, 여기서, vi, vj
Figure pat00009
VT, vk
Figure pat00010
VA, 이고,
Figure pat00011
(공식 6)
, 여기서 VT는 일시 노드 세트이고, VA는 흡수 노드 세트이다. 계수 ðt 및 ða는 각각 각 에지의 유형을 기준으로 각 에지 가중치에 곱한다. 예를 들어, 에지의 두 유형은 (1) 두 일시 노드와 연결된 일시 에지와 (2) 일시 노드 중 하나를 흡수 노드 중 하나에 연결하는 흡수 에지로 정의된다. 모든 일시 에지들은 양방향인 반면, 모든 흡수 에지들은 단방향이다.
특히, qij가 계수 ðt < ða를 설정하여 각 일시 에지의 전이 확률이고, rik는 흡수 에지의 전이 확률인 경우, 트래킹 알고리즘은 배경과 관련한 노드에서 시작되는 랜덤 워크의 빠른 흡수를 용이하게 할 수 있으며, 좀더 독특한 흡수 횟수를 야기할 수 있다.
도 9의 (c)와 (d)에는 세그먼테이션 결과에 대한 계수 ðt 및 ða의 매개변수 설정으로 인한 영향이 나타나 있다. 전이 확률은 흡수 및 일시 에지, 즉, ðt = ða에 대해 동일 가중되는 경우, 배경 수퍼픽셀은 도 9의 (c)에 나타난 바와 같이 전경 피처로 라벨을 잘못 붙이는 경우가 생기고, 이에, 특정 대상 객체에 대해 긍정 오류 세그먼테이션 결과를 가져온다.
그러나, 전이 확률이 도 9의 (d)에 나타난 것과 같이 일시 에지보다 흡수 에지에 더 가중치를 두게 되고, 얻은 특정 대상 객체에 대한 세그먼테이션 결과는 도 9의 (b)에 표시된 GT 세그먼테이션 결과에 더 가깝다. 에지 가중치뿐 아니라 흡수 횟수도 트래킹 알고리즘으로 수정이 될 수 있다.
도 10은 본 발명의 일 실시예에 따라 각기 다른 흡수 횟수를 기반으로 세그먼테이션 결과 비교를 나타내는 도면이다.
도 10의 (a)에서 특정 대상 객체, 예로 동작을 빠르게 바꾸고 있는 다이버에 대한 비디오 시퀀스의 또 다른 입력 프레임이 나타나 있다. 도 10의 (b)는 특정 대상 객체에 대한 GT 세그먼테이션 결과를 나타낸다.
오리지널 흡수 시간은 보이지 않는 배경에 해당되는 수퍼픽셀이 종종 더 큰 흡수 횟수를 갖는 한에서 랜덤 워커가 흡수 노드에 도달할 때까지 각 일시 노드에서 보내는 시간을 계산하며, 이로써 도 10의 (c)에서 보다시피 특정 대상 객체에 대한 문제가 되는 세그먼테이션 결과를 가져온다. 그러나 수정된 흡수 시간은 랜덤 워커가 일시 노드를 지난 횟수를 산정한다. 또한, 수정된 흡수 시간은 도 10의 (d)에 도시된 바와 같이 보이지 않는 배경 영역을 처리하는데 더 효과적이다. 또한, 수정된 흡수 시간은 조정된 에지 가중치를 기반으로 획득된다. 게다가, 여기서 공개한 트래킹 알고리즘은 전체적 형상 모델을 적용하여 특정 대상 객체에 대한 세그먼테이션 결과의 정확성을 개선할 수 있다.
도 11은 본 발명의 일 실시예에 따라 수퍼픽셀의 1홉 및 2홉 근방계와 병합한 비교 결과를 예시적으로 나타낸 도면이다.
도 10의 (d)에 도시한 단편화 문제를 줄이기 위해 고안된 트래킹 알고리즘은 상기 흡수 마코프체인 그래프(203)에 있는 일시 노드, 즉, 전경 수퍼픽셀 임계화를 위한 특정한 홉(hop) 수 내에서 연결된 다수의 구성요소들을 획득할 수 있다.
예로, 트래킹 알고리즘은 상기 흡수 마코프체인 그래프(203)에 있는 2홉 내 연결된 전경 세그먼트와 그룹을 이뤄 특정 대상 객체에 대한 후보 영역을 구성할 수 있다. 트래킹 알고리즘은 두 홉 내 노드를 흡수한 후 다수의 연결된 구성요소들 중 하나, 즉 후보 영역들 중 하나를 선택할 수 있는데, 여기서, 상기 선택된 하나의 연결 구성요소는 입력 프레임 내 특정 대상 객체에 대한 전체적 형상 모델에 가장 가까운 연결 구성요소이다.
여기서, 전체적 형상 모델은 전경에 대한 세그먼테이션 마스크상 픽셀의 정규화된 컬러 히스토그램을 기준으로 전체적 형상 모델이 될 수 있으나 반드시 이에 한하는 것은 아니다.
상기 흡수 마코프체인 그래프(203)에서 1홉과 2홉 내 특정 대상 객체에 해당하는 노드를 병합한 비교 결과는 도 11의 (a) 및 (b)에 각각 표시되어 있다. 표시된 바운딩 박스들은 특정 대상 객체에 후보 영역을 나타내고, 어두운 색상의 바운딩 박스는 특정 대상 객체에 대해 세그먼테이션 결과를 나타낸다.
도 12는 본 발명의 일 실시예에 따라 전체적 형상 모델 적용의 이점을 예시적으로 나타낸 도면이다.
도 12의 (a)와 (b) 두 피처에는 대상 객체에 대한 두 후보 영역이 존재한다. 공개된 트래킹 알고리즘은 컬러 히스토그램을 기반으로 전체적 형상 모델을 이용하여 대상 객체에 대한 정확한 후보 영역을 선택할 수 있다. 또한, 트래킹 알고리즘은 상기 선택된 하나의 연결 구성요소를 기준으로 프레임 이미지 상 대상 객체에 대한 세그먼테이션 결과를 선택하여 해당되는 트래킹 박스를 포함할 수 있는 트래킹 결과를 얻을 수 있다.
게다가, 본 발명 및 다양한 실시예에 공개된 트래킹 알고리즘은 아래 기술된 도전적인 벤치마크 데이터세트에 의해 평가되고 있다. 평가 결과는 아래 표 1 및 표 2에 요약, 제시되었다. 평가를 위해 사용한 5가지 독립적 데이터세트는 비정형 객체 트래킹 데이터세트(NR) 및 일반적인 배경 제외 데이터세트(GBS), 비디오 특성 데이터세트(VS), SegTrack v2 데이터세트(ST2) 및 DAVIS 데이터세트이다.
공개된 트래킹 알고리즘의 다양한 최적의 실시예에는 회귀 없는 AMCT(AMCT-NR)와 전체적 형상 모델이 없는 AMCT(AMCT-NA), CNN 피처 서술자들을 통합한 AMCT(AMCT+CNN), 그 안에서 상기 현재 프레임과 이전 프레임 상 ROI 내 각 수퍼픽셀의 피처는 CNN(Convolutional Neural Network)을 통해 파생된다. SVR 트레이닝은 고차원적 CNN 피처에 대해서는 실질적으로 느리기 때문에, AMCT+CNN은 공개된 트래킹 알고리즘의 기타 최적의 실시예들과 비교하여 느리다. 참고로, AMCT는 흡수 마코프체인 트래킹을 말한다.
AMCT AMCT-NA AMCT-NR AMCT+CNN OGBDT SPT
NR 58.6 49.3 23.1 66.3 53.3 29.7
GBS 74.8 70.4 53.0 77.1 59.7 45.9
VS 84.1 83.8 71.4 82.3 79.8 61.0
ST2 58.8 60.7 47.2 71.3 47.6 26.3
DAVIS 59.2 56.9 41.2 65.1 44.9 27.1
세그먼테이션에 의한 트래킹 알고리즘에 대해 세그먼테이션 마스크의 평균 중복비
AMCT AMCT-NA AMCT-NR AMCT+CNN OGBDT SPT
NR 66.9 50.8 25.7 73.3 60.8 35.7
GBS 80.0 71.4 53.7 81.9 61.2 55.2
VS 88.2 88.1 75.4 88.7 78.8 61.5
ST2 64.8 64.3 50.3 76.3 50.2 53.5
DAVIS 60.9 60.1 44.5 67.8 50.0 43.2
세그먼테이션에 의한 트래킹 알고리즘에 대해 바운딩 박스의 평균 중복비
표1 및 표2에서 모든 알고리즘의 전반적 성능은 다섯 가지 데이터세트와 비교, 요약되어 있다. 공개된 트래킹 알고리즘의 변화는 세그먼테이션에 의한 트래킹 필드에서 현재 가장 최근 알고리즘인 SPT와 OGBDT 등 기타 트래킹 방법과 비교하여 세그먼테이션 마스크 및 바운딩 박스의 중복비 모두에서 뛰어난 성능을 보여줄 수 있다. 특히, AMCT 및 AMCT+CNN은 모든 테스트된 데이터세트 내 바운딩 박스 예측과 관련하여 최근 트래킹 알고리즘보다 크게 뛰어나다. 이는 주로 바운딩 박스 트래킹이 변형가능한 고굴절 대상 객체를 따르는데 효과적이지 않기 때문이다.
여기서, 위에서 기술한 연산이나 계산을 수행하는 적어도 하나의 프로세스(미도시)가 있는 디지털 컴퓨팅 장치는 본 발명의 트래킹 알고리즘을 수행하는 적절한 장치로 채택이 가능하다. 장치의 통신부(미도시)는 프레임의 이미지, 즉, 비디오 데이터를 획득하도록 구성될 수 있다.
본 발명 기술분야의 통상의 기술자에게 이해될 수 있는 바로서, 위에서 설명된 이미지, 예컨대 input image, training image, test image 와 같은 이미지 데이터의 송수신이 학습 장치 및 테스트 장치의 통신부들에 의하여 이루어질 수 있으며, 특징 맵과 연산을 수행하기 위한 데이터가 학습 장치 및 테스트 장치의 프로세서(및/또는 메모리)에 의하여 보유/유지될 수 있고, 컨벌루션 연산, 디컨벌루션 연산, 에러 값 연산 과정이 주로 학습 장치 및 테스트 장치의 프로세서에 의하여 수행될 수 있으나, 본 발명이 이에 한정되지는 않을 것이다.
이상 설명된 본 발명에 따른 실시예들은 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상에서 본 발명이 구체적인 구성요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나, 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명이 상기 실시예들에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형을 꾀할 수 있다.
따라서, 본 발명의 사상은 상기 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등하게 또는 등가적으로 변형된 모든 것들은 본 발명의 사상의 범주에 속한다고 할 것이다.

Claims (30)

  1. 흡수 마코프체인을 사용하여 동영상 데이터 프레임에서 대상 객체를 추적하는 방법에 있어서,
    (a) 컴퓨팅 장치가, 현재 프레임 상 대상 객체를 포함한 바운딩 박스와 이전 프레임에 있는 상기 대상 객체에 대한 세그먼테이션 결과를 획득하거나 획득하도록 지원하는 단계;
    (b) 상기 컴퓨팅 장치가, 상기 대상 객체를 둘러싼 배경에 대한 정보의 일부를 포함하도록 상기 바운딩 박스를 확대하여 상기 현재 프레임 상의 ROI(region of interest)를 획득하거나 획득하도록 지원하는 단계;
    (c) 상기 컴퓨팅 장치가, 상기 현재 프레임 상의 상기 ROI 안에 있는 여러 로컬 영역에 대한 정보를 획득하거나 획득하도록 지원하는 단계;
    (d) 상기 컴퓨팅 장치가, 상기 현재 프레임에 있는 상기 ROI 내 상기 로컬 영역과 상기 이전 프레임에 있는 ROI 내 로컬 영역 중 적어도 일부를 사용하여 흡수 마코프체인 그래프를 구성하거나 구성하도록 지원하는 단계; 및
    (e) 상기 컴퓨팅 장치가, 흡수 횟수를 사용하여 상기 흡수 마코프체인 그래프 내 각 노드의 임계값을 정하여 상기 현재 프레임 상 상기 대상 객체에 대한 세그먼테이션 결과를 획득하거나 획득하도록 지원하는 단계;
    를 포함하되,
    상기 흡수 마코프체인 그래프는 (i) 상기 이전 프레임에 있는 상기 ROI 내 배경 정보를 포함한 로컬 영역에 해당되는 흡수(absorbing) 노드 세트와 (ii) 상기 현재 프레임에 있는 상기 ROI 내 상기 로컬 영역 및 상기 이전 프레임에 있는 상기 ROI 내의 상기 대상 객체에 대한 상기 세그먼테이션 결과와 관련된 로컬 영역에 해당되는 일시(transient) 노드 세트로 구성된 두 노드 부분집합을 포함하며,
    상기 흡수 마코프체인 그래프는 인트라프레임 에지 세트와 인터프레임 에지 세트로 구성된 두 에지 부분집합을 포함하고,
    상기 각 노드에서 임의의 흡수 노드까지의 단계 수인 노드의 흡수 횟수가 각 노드별로 존재하는 것을 특징으로 하는 방법.
  2. 제1항에 있어서,
    상기 (d) 단계 이전에,
    상기 컴퓨팅 장치는 상기 현재 프레임 상 상기 ROI 내 상기 로컬 영역 각각의 오리지널 피처와 상기 이전 프레임 상 상기 ROI 내 상기 로컬 영역 각각의 오리지널 피처를, 상기 오리지널 피처의 특성을 참조하여 결정되는 특정 연산을 수행하여, 임베디드 공간에 투영하거나 투영하도록 지원하는 단계;
    를 더 포함하는 것을 특징으로 하는 방법.
  3. 제2항에 있어서,
    상기 컴퓨팅 장치는 적어도 하나의 회귀자로 회귀를 사용하여 상기 현재 프레임 상 상기 ROI 내 상기 로컬 영역 각각의 상기 오리지널 피처와 상기 이전 프레임 상 상기 ROI 내 상기 로컬 영역 각각의 상기 오리지널 피처를 투영하거나 투영하도록 지원하는 것을 특징으로 하는 방법.
  4. 제3항에 있어서,
    상기 (d)단계는
    (d-1) 상기 컴퓨팅 장치가 상기 적어도 하나의 회귀자를 통해 상기 현재 프레임 상 상기 ROI와 상기 이전 프레임 상 상기 ROI 내 상기 로컬 영역의 각 투영된 피처를 사용하여 획득된 상기 흡수 마코프체인 그래프 내 각 노드와 관련된 각 회귀 점수를 획득하거나 획득하도록 지원하는 단계;
    (d-2) 상기 컴퓨팅 장치가 상기 흡수 마코프체인 그래프 내 각 노드 중 선택되어 서로 연결된 두 노드와 각각 관련된 각 회귀 점수간의 유사도를 산정하거나 산정하도록 지원하여 상기 흡수 마코프체인 그래프 상 각 에지에 대응되는 가중치를 얻는 단계;
    (d-3) 상기 컴퓨팅 장치가 대응되는 가중치를 기반으로 상기 각 에지에 대한 각 전이 확률을 산정하거나 산정하도록 지원하는 단계; 및
    (d-4) 상기 컴퓨팅 장치가 상기 흡수 마코프체인 그래프 내 상기 각각의 노드에 대한 각 흡수횟수를 얻기 위해 상기 (d-3)단계에서 산정된 그에 대응되는 전이 확률을 참조하여 랜덤 워크로 상기 흡수 마코프체인 그래프를 트래킹하거나 트래킹하도록 지원하는 단계;
    를 포함하는 것을 특징으로 하는 방법.
  5. 제4항에 있어서,
    상기 흡수 마코프체인 그래프 내 각각의 노드에는
    (i) 에지 유형을 기반으로 선택된 각기 다른 계수 중 하나와 (ii) 상기 흡수 마코프체인 그래프 내 상기 에지 각각에 대응되는 가중치를 반복적으로 곱하여 얻은 조정된 에지 가중치를 기준으로 획득한, 랜덤 워커가 상기 각각의 일시 노드를 통과하는 횟수를 나타내는 상기 이전 프레임 상 상기 대상 객체에 대한 세그먼테이션 결과에 대응되는 상기 일시 노드 각각의 각각 수정된 흡수 횟수가 존재하는 것을 특징으로 하는 방법.
  6. 제4항에 있어서,
    상기 회귀 점수는 서포트벡터회귀를 적용하여 획득하는 것을 특징으로 하되, 라벨은 상기 흡수 마코프체인 그래프 내 각각의 노드 중 전경으로 결정되는 노드의 경우 +1로, 배경으로 결정되는 노드의 경우 -1로 표시되는 것을 특징으로 하는 방법.
  7. 제6항에 있어서,
    상기 적어도 하나의 회귀자는 전경을 나타내는 노드 세트와 배경을 나타내는 노드 세트로 트레이닝이 되되, 전경을 나타내는 세트에 속하는 각 노드는 상기 이전 프레임 상 상기 대상 객체와 상기 비디오 데이터의 제1 프레임 상 상기 대상 객체에 대한 상기 세그먼테이션 결과 내 상기 로컬 영역 중 하나에 대응되고, 배경을 나타내는 노트 세트에 속하는 각 노드는 상기 이전 프레임과 상기 제1 프레임 상 상기 대상 객체에 대한 상기 세그먼테이션 결과와 관련이 없는 로컬 영역 중 하나에 대응되는 것을 특징으로 하는 방법.
  8. 제7항에 있어서,
    상기 배경을 나타내는 노드 세트는 상기 현재 프레임과 상기 이전 프레임 상 상기 ROI의 경계면에 있는 로컬 영역에 대응되는 노드를 더 포함하는 방법.
  9. 제1항에 있어서,
    상기 (e)단계 이후,
    (f) 상기 컴퓨팅 장치는 상기 흡수 마코프체인 그래프 상 특정한 수의 홉(hop) 내에 상기 일시 노드의 다수의 연결 구성요소를 획득하거나 획득하도록 지원하는 단계;
    (g) 상기 컴퓨팅 장치는 상기 다수의 연결 구성요소 중 하나의 연결 구성요소를 선택하거나 선택하도록 지원하되, 상기 선택된 하나의 연결 구성요소는 상기 현재 프레임 상 대상 객체 대한 전체적 형상 모델에 가장 유사한 연결 구성요소인 단계; 및
    (h) 상기 컴퓨팅 장치는 상기 선택된 하나의 연결 구성요소를 사용하여 상기 현재 프레임 상 상기 대상 객체에 대해 상기 세그먼테이션 결과를 조정하거나 조정을 지원하여 조정된 트래킹 결과와 그에 대응되는 트래킹 박스를 획득하는 단계;
    를 더 포함하는 방법.
  10. 제9항에 있어서,
    상기 (d)단계 이전에,
    상기 컴퓨팅 장치는 상기 현재 프레임 상 상기 ROI 내 상기 로컬 영역과 상기 이전 프레임 상 상기 ROI 내 상기 로컬 영역 각각의 각 오리지널 피처의 특징을 참조하여 결정되는 특정 연산을 수행하여 상기 각 오리지널 피처를 임베디드 공간에 투영하거나 투영하도록 지원하는 단계;
    를 더 포함하는 방법.
  11. 제10항에 있어서,
    상기 현재 프레임 상 상기 ROI 내 상기 로컬 영역과 상기 이전 프레임 상 상기 ROI 내 상기 로컬 영역 각각의 상기 각 오리지널 피처는 CNN(Convolutional Neural Network)을 통해 획득되는 것을 특징으로 하는 방법.
  12. 제1항에 있어서,
    상기 (e)단계에서,
    상기 컴퓨팅 장치는 상기 흡수 마코프체인 그래프 내 각각의 노드의 흡수 횟수를 사용하여 상기 노드를 임계화 후 세그먼테이션 마스크를 더 획득하거나 획득하도록 지원하는 것을 특징으로 하는 방법.
  13. 제1항에 있어서,
    상기 현재 프레임 상 상기 대상 객체를 포함한 바운딩 박스는 상기 이전 프레임 상 상기 대상 객체에 대한 상기 세그먼테이션 결과를 변형하여 변형된 결과를 포함한 가장 꽉 찬 바운딩 박스를 찾아 획득되는 것을 특징으로 하는 방법.
  14. 제1항에 있어서,
    상기 (e)단계에서,
    상기 각각의 노드는 적어도 상기 현재 프레임 상 상기 ROI 내 일시 노드의 적어도 일부의 흡수 횟수를 사용하여 결정되는 임계값을 기반으로 임계화하는 것을 특징으로 하는 방법.
  15. 제1항에 있어서,
    상기 현재 프레임 상 상기 ROI 내 상기 로컬 영역 및 상기 이전 프레임 상 상기 ROI 내 상기 로컬 영역은 수퍼픽셀 세그먼테이션 알고리즘을 사용하여 픽셀들을 수퍼픽셀로 클러스터링하여 획득되는 것을 특징으로 하는 방법.
  16. 제1항에 있어서,
    상기 컴퓨팅 장치가 상기 비디오 데이터의 제1 프레임인 경우 첫 세그먼테이션 마스크를 획득하거나 획득하도록 지원하는 것을 특징으로 하는 방법.
  17. 제16항에 있어서,
    상기 첫 세그먼테이션 마스크는 상기 (d) 단계에서 상기 흡수 마코프체인 그래프를 획득하는데 사용되는 인트라프레임 에지들만 있는 첫 흡수 마코프체인 그래프의 각 노드의 흡수 횟수를 임계값을 설정하여 얻되, 상기 첫 흡수 마코프체인 그래프의 일시 노드들은 특정 비율 이상으로 상기 제1 프레임 상 상기 대상 객체의 첫 GT 바운딩 박스와 중복되는 로컬 영역에 의해 결정되고, 상기 첫 흡수 마코프체인 그래프의 흡수 노드들은 상기 첫 흡수 마코프체인 그래프의 일시 노드로 결정되지 않은 상기 제1 프레임 상 상기 ROI 내 로컬 영역에 의해 결정되는 것을 특징으로 하는 방법.
  18. 제1항에 있어서,
    (i) 상기 컴퓨팅 장치는 일련의 트래킹 결과를 얻기 위해 상기 현재 프레임 상 상기 대상 객체에 대한 상기 세그먼테이션 결과를 재귀적 방식으로 후속 프레임들에 전달하거나 전달하도록 하는 단계;
    를 더 포함한 방법.
  19. 흡수 마코프체인을 사용하여 이미지 상 대상 객체를 세그먼테이션하는 방법으로,
    (a) 컴퓨팅 장치가 상기 이미지 상 상기 대상 객체를 포함한 바운딩 박스를 획득하거나 획득하도록 지원하는 단계;
    (b) 상기 컴퓨팅 장치가 상기 대상 객체를 둘러싼 배경에 대한 정보의 일부를 포함하도록 상기 바운딩 박스를 확대하여 상기 이미지 상 ROI(region of interest)를 획득하거나 획득하도록 지원하는 단계;
    (c) 상기 컴퓨팅 장치가 상기 이미지 상 상기 ROI 내 여러 로컬 영역에 대한 정보를 획득하거나 획득하도록 지원하는 단계;
    (d) 상기 컴퓨팅 장치가 상기 이미지 상 상기 ROI 내 상기 로컬 영역 중 적어도 일부를 사용하여 흡수 마코프체인 그래프를 구성하거나 구성하도록 지원하는 단계; 및
    (e) 상기 컴퓨팅 장치가 흡수 횟수를 사용하여 상기 흡수 마코프체인 그래프 내 각 노드의 임계값을 정하여 상기 이미지 상 상기 대상 객체에 대한 세그먼테이션 결과를 획득하거나 획득하도록 지원하는 단계;
    를 포함하되,
    상기 흡수 마코프체인 그래프에는 (i) 상기 이미지 상 특정 비율 이상 상기 바운딩 박스와 중복되는 로컬 영역에 해당되는 일시(transient) 노드 세트와 (ii) 상기 일시 노드로 결정되지 않은 상기 이미지 상 상기 ROI 내 로컬 영역의 일부에 해당되는 흡수(absorbing) 노드 세트로 구성된 두 노드 부분집합을 포함하며,
    상기 흡수 마코프체인 그래프 상 (i) 상기 일시 노드 및 (ii) 상기 흡수 노드 각각은 다른 흡수 노드까지의 단계 수인 흡수 횟수가 각각 존재하는 것을 특징으로 하는 방법.
  20. 제19항에 있어서,
    상기 (d) 단계 이전에,
    상기 컴퓨팅 장치는 상기 이미지 상의 상기 ROI 내 상기 로컬 영역 각각의 오리지널 피처를, 상기 오리지널 피처의 특성을 참조하여 결정되는 특정 연산을 수행하여, 임베디드 공간에 투영하거나 투영하도록 지원하는 단계;
    를 더 포함하는 것을 특징으로 하는 방법.
  21. 제20항에 있어서,
    상기 컴퓨팅 장치는 적어도 하나의 회귀자로 회귀를 사용하여 상기 이미지 상 상기 ROI 내 상기 로컬 영역 각각의 상기 오리지널 피처를 투영하거나 투영하도록 지원하는 것을 특징으로 하는 방법.
  22. 제19항에 있어서,
    상기 (e)단계 이후,
    (f) 상기 컴퓨팅 장치는 상기 흡수 마코프체인 그래프 상 특정한 수의 홉(hop) 내에 상기 일시 노드의 다수의 연결 구성요소를 획득하거나 획득하도록 지원하는 단계;
    (g) 상기 컴퓨팅 장치는 상기 다수의 연결 구성요소 중 하나의 연결 구성요소를 선택하거나 선택하도록 지원하되, 상기 선택된 하나의 연결 구성요소는 상기 이미지 상 대상 객체 대한 전체적 형상 모델에 가장 유사한 연결 구성요소인 단계; 및
    (h) 상기 컴퓨팅 장치는 상기 선택된 하나의 연결 구성요소를 사용하여 상기 이미지 상 상기 대상 객체에 대해 상기 세그먼테이션 결과를 조정하거나 조정을 지원하여 조정된 세그먼테이션 결과와 그에 대응되는 트래킹 박스를 획득하는 단계;
    를 더 포함하는 방법.
  23. 흡수 마코프체인을 사용하여 동영상 데이터 프레임에서 대상 객체를 추적하는 컴퓨팅 장치에 있어서,
    상기 동영상 데이터를 획득하기 위한 통신부 및
    (i) 상기 동영상 데이터 내의 현재 프레임 상 대상 객체를 포함한 바운딩 박스와 상기 동영상 데이터 내의 이전 프레임에 있는 상기 대상 객체에 대한 세그먼테이션 결과를 획득하거나 획득하도록 지원하는 프로세스; (ii) 상기 대상 객체를 둘러싼 배경에 대한 정보의 일부를 포함하도록 상기 바운딩 박스를 확대하여 상기 현재 프레임 상의 ROI(region of interest)를 획득하거나 획득하도록 지원하는 프로세스; (iii) 상기 현재 프레임 상의 상기 ROI 안에 있는 여러 로컬 영역에 대한 정보를 획득하거나 획득하도록 지원하는 프로세스; (iv) 상기 현재 프레임에 있는 상기 ROI 내 상기 로컬 영역과 상기 이전 프레임에 있는 ROI 내 로컬 영역 중 적어도 일부를 사용하여 흡수 마코프체인 그래프를 구성하거나 구성하도록 지원하는 프로세스; 및 (v) 흡수 횟수를 사용하여 상기 흡수 마코프체인 그래프 내 각 노드의 임계값을 정하여 상기 현재 프레임 상 상기 대상 객체에 대한 세그먼테이션 결과를 획득하거나 획득하도록 지원하는 프로세스; 를 수행하는 프로세서를 포함하되,
    상기 흡수 마코프체인 그래프는 (i) 상기 이전 프레임에 있는 상기 ROI 내 배경 정보를 포함한 로컬 영역에 해당되는 흡수(absorbing) 노드 세트와 (ii) 상기 현재 프레임에 있는 상기 ROI 내 상기 로컬 영역 및 상기 이전 프레임에 있는 상기 ROI 내의 상기 대상 객체에 대한 상기 세그먼테이션 결과와 관련된 로컬 영역에 해당되는 일시(transient) 노드 세트로 구성된 두 노드 부분집합을 포함하며,
    상기 흡수 마코프체인 그래프는 인트라프레임 에지 세트와 인터프레임 에지 세트로 구성된 두 에지 부분집합을 포함하고,
    상기 각 노드에서 임의의 흡수 노드까지의 단계 수인 노드의 흡수 횟수가 각 노드별로 존재하는 것을 특징으로 하는 컴퓨팅 장치.
  24. 제23항에 있어서,
    상기 (iv) 프로세스 이전에,
    상기 프로세서는 상기 현재 프레임 상 상기 ROI 내 상기 로컬 영역 각각의 오리지널 피처와 상기 이전 프레임 상 상기 ROI 내 상기 로컬 영역 각각의 오리지널 피처를, 상기 오리지널 피처의 특성을 참조하여 결정되는 특정 연산을 수행하여, 임베디드 공간에 투영하거나 투영하도록 지원하는 프로세스;
    를 더 수행하는 것을 특징으로 하는 컴퓨팅 장치.
  25. 제24항에 있어서,
    상기 프로세서는 적어도 하나의 회귀자로 회귀를 사용하여 상기 현재 프레임 상 상기 ROI 내 상기 로컬 영역 각각의 상기 오리지널 피처와 상기 이전 프레임 상 상기 ROI 내 상기 로컬 영역 각각의 상기 오리지널 피처를 투영하거나 투영하도록 지원하는 것을 특징으로 하는 컴퓨팅 장치.
  26. 제25항에 있어서,
    상기 프로세서는, 상기 (iv) 프로세스에서,
    (iv-1) 상기 적어도 하나의 회귀자를 통해 상기 현재 프레임 상 상기 ROI와 상기 이전 프레임 상 상기 ROI 내 상기 로컬 영역의 각 투영된 피처를 사용하여 획득된 상기 흡수 마코프체인 그래프 내 각 노드와 관련된 각 회귀 점수를 획득하거나 획득하도록 지원하는 프로세스;
    (iv-2) 상기 흡수 마코프체인 그래프 내 각 노드 중 선택되어 서로 연결된 두 노드와 각각 관련된 각 회귀 점수간의 유사도를 산정하거나 산정하도록 지원하여 상기 흡수 마코프체인 그래프 상 각 에지에 대응되는 가중치를 얻는 프로세스;
    (iv-3) 대응되는 가중치를 기반으로 상기 각 에지에 대한 각 전이 확률을 산정하거나 산정하도록 지원하는 프로세스; 및
    (iv-4) 상기 흡수 마코프체인 그래프 내 상기 각각의 노드에 대한 각 흡수횟수를 얻기 위해 상기 (iv-3) 프로세스에서 산정된 그에 대응되는 전이 확률을 참조하여 랜덤 워크로 상기 흡수 마코프체인 그래프를 트래킹하거나 트래킹하도록 지원하는 프로세스;
    를 더 수행하는 것을 특징으로 하는 컴퓨팅 장치.
  27. 제23항에 있어서,
    상기 프로세서는, 상기 (v)프로세스 이후,
    (vi) 상기 흡수 마코프체인 그래프 상 특정한 수의 홉(hop) 내에 상기 일시 노드의 다수의 연결 구성요소를 획득하거나 획득하도록 지원하는 프로세스;
    (vii) 상기 다수의 연결 구성요소 중 하나의 연결 구성요소를 선택하거나 선택하도록 지원하되, 상기 선택된 하나의 연결 구성요소는 상기 현재 프레임 상 대상 객체 대한 전체적 형상 모델에 가장 유사한 연결 구성요소인 프로세스; 및
    (viii) 상기 선택된 하나의 연결 구성요소를 사용하여 상기 현재 프레임 상 상기 대상 객체에 대해 상기 세그먼테이션 결과를 조정하거나 조정을 지원하여 조정된 트래킹 결과와 그에 대응되는 트래킹 박스를 획득하는 프로세스;
    를 더 포함하는 컴퓨팅 장치.
  28. 흡수 마코프체인(AMC)을 사용하여 이미지 상 대상 객체를 세그먼테이션하는 컴퓨팅 장치로,
    상기 이미지를 획득하기 위한 통신부;
    (i) 상기 이미지 상 상기 대상 객체를 포함한 바운딩 박스를 획득하거나 획득하도록 지원하는 프로세스;
    (ii) 상기 대상 객체를 둘러싼 배경에 대한 정보의 일부를 포함하도록 상기 바운딩 박스를 확대하여 상기 이미지 상 ROI(region of interest)를 획득하거나 획득하도록 지원하는 프로세스;
    (iii) 상기 이미지 상 상기 ROI 내 여러 로컬 영역에 대한 정보를 획득하거나 획득하도록 지원하는 프로세스;
    (vi) 상기 이미지 상 상기 ROI 내 상기 로컬 영역 중 적어도 일부를 사용하여 흡수 마코프체인 그래프를 구성하거나 구성하도록 지원하는 프로세스; 및
    (v) 흡수 횟수를 사용하여 상기 흡수 마코프체인 그래프 내 각 노드의 임계값을 정하여 상기 이미지 상 상기 대상 객체에 대한 세그먼테이션 결과를 획득하거나 획득하도록 지원하는 프로세스;
    를 수행하는 프로세서;를 포함하되,
    상기 흡수 마코프체인 그래프에는 (i) 상기 이미지 상 특정 비율 이상 상기 바운딩 박스와 중복되는 로컬 영역에 해당되는 일시(transient) 노드 세트와 (ii) 상기 일시 노드로 결정되지 않은 상기 이미지 상 상기 ROI 내 로컬 영역의 일부에 해당되는 흡수(absorbing) 노드 세트로 구성된 두 노드 부분집합을 포함하며,
    상기 흡수 마코프체인 그래프 상 (i) 상기 일시 노드 및 (ii) 상기 흡수 노드 각각은 다른 흡수 노드까지의 단계 수인 흡수 횟수가 각각 존재하는 것을 특징으로 하는 컴퓨팅 장치.
  29. 제28항에 있어서,
    상기 (iv) 프로세스 이전에,
    상기 프로세서는 상기 이미지 상의 상기 ROI 내 상기 로컬 영역 각각의 오리지널 피처를, 상기 오리지널 피처의 특성을 참조하여 결정되는 특정 연산을 수행하여, 임베디드 공간에 투영하거나 투영하도록 지원하는 프로세스;
    를 더 수행하는 것을 특징으로 하는 컴퓨팅 장치.
  30. 제29항에 있어서,
    상기 프로세서는, 상기 (v) 프로세스 이후,
    (vi) 상기 흡수 마코프체인 그래프 상 특정한 수의 홉(hop) 내에 상기 일시 노드의 다수의 연결 구성요소를 획득하거나 획득하도록 지원하는 프로세스;
    (vii) 상기 다수의 연결 구성요소 중 하나의 연결 구성요소를 선택하거나 선택하도록 지원하되, 상기 선택된 하나의 연결 구성요소는 상기 이미지 상 대상 객체 대한 전체적 형상 모델에 가장 유사한 연결 구성요소인 프로세스; 및
    (viii) 상기 선택된 하나의 연결 구성요소를 사용하여 상기 이미지 상 상기 대상 객체에 대해 상기 세그먼테이션 결과를 조정하거나 조정을 지원하여 조정된 세그먼테이션 결과와 그에 대응되는 트래킹 박스를 획득하는 프로세스;
    를 더 수행하는 컴퓨팅 장치.
KR1020180117309A 2017-10-03 2018-10-02 마코프체인을 사용하여 이미지 상 대상 객체를 추적, 분할하는 방법 및 장치 KR20190039384A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/724,215 US10037610B1 (en) 2017-10-03 2017-10-03 Method for tracking and segmenting a target object in an image using Markov Chain, and device using the same
US15/724,215 2017-10-03

Publications (1)

Publication Number Publication Date
KR20190039384A true KR20190039384A (ko) 2019-04-11

Family

ID=62948580

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180117309A KR20190039384A (ko) 2017-10-03 2018-10-02 마코프체인을 사용하여 이미지 상 대상 객체를 추적, 분할하는 방법 및 장치

Country Status (5)

Country Link
US (1) US10037610B1 (ko)
EP (1) EP3467774A1 (ko)
JP (1) JP2019067404A (ko)
KR (1) KR20190039384A (ko)
CN (1) CN109598735A (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210114728A (ko) 2020-03-11 2021-09-24 연세대학교 산학협력단 박스 레벨의 객체 위치 정보를 사용한 픽셀 레벨의 동영상 객체 추적 장치
WO2023120969A1 (ko) * 2021-12-22 2023-06-29 경기대학교 산학협력단 동영상 관계 탐지 시스템

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10957048B2 (en) * 2018-09-05 2021-03-23 Htc Corporation Image segmentation method, apparatus and non-transitory computer readable medium of the same
US10311321B1 (en) * 2018-10-26 2019-06-04 StradVision, Inc. Learning method, learning device using regression loss and testing method, testing device using the same
CN111311603B (zh) * 2018-12-12 2024-08-16 北京京东乾石科技有限公司 用于输出目标物体数目信息的方法和装置
CN111539906B (zh) * 2019-01-22 2024-04-12 顺丰科技有限公司 装载率测定方法及装置
CN110111353B (zh) * 2019-04-29 2020-01-24 河海大学 基于马尔可夫背景与前景吸收链的图像显著性检测方法
CN110298298B (zh) * 2019-06-26 2022-03-08 北京市商汤科技开发有限公司 目标检测及目标检测网络的训练方法、装置及设备
CN110378911B (zh) * 2019-07-11 2022-06-21 太原科技大学 基于候选区域和邻域分类器的弱监督图像语义分割方法
CN111047603B (zh) * 2019-11-27 2021-09-03 南京师范大学 一种基于新型马尔可夫随机场和区域合并的航拍图像混合分割算法
CN111223114B (zh) * 2020-01-09 2020-10-30 北京达佳互联信息技术有限公司 一种图像区域的分割方法、装置及电子设备
CN111242918B (zh) * 2020-01-10 2023-01-24 深圳信息职业技术学院 基于卡尔曼滤波和马尔可夫随机场的图像分割方法及系统
KR20210116966A (ko) 2020-03-18 2021-09-28 삼성전자주식회사 타겟 트래킹 방법 및 장치
CN113706555B (zh) * 2021-08-12 2024-09-06 北京达佳互联信息技术有限公司 一种视频帧处理方法、装置、电子设备及存储介质
CN114708285B (zh) * 2022-03-31 2024-09-13 华南农业大学 基于吸收马尔科夫链和骨架映射网络的视频分割方法及装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6757434B2 (en) * 2002-11-12 2004-06-29 Nokia Corporation Region-of-interest tracking method and device for wavelet-based video coding
US9519837B2 (en) * 2014-07-03 2016-12-13 Toyota Motor Engineering & Manufacturing North America, Inc. Tracking using multilevel representations
US9747695B2 (en) * 2013-04-19 2017-08-29 Commonwealth Scientific And Industrial Research Organisation System and method of tracking an object
US9972106B2 (en) * 2015-04-30 2018-05-15 TigerIT Americas, LLC Systems, methods and devices for tamper proofing documents and embedding data in a biometric identifier
CN105491370B (zh) * 2015-11-19 2020-09-22 国家新闻出版广电总局广播科学研究院 基于图的协同低高级特征的视频显著性检测方法
WO2017214414A1 (en) * 2016-06-09 2017-12-14 The Penn State Research Foundation Systems and methods for detection of significant and attractive components in digital images
CN106296728B (zh) * 2016-07-27 2019-05-14 昆明理工大学 一种基于全卷积网络的非限制场景中运动目标快速分割方法
CN106997597B (zh) * 2017-03-22 2019-06-25 南京大学 一种基于有监督显著性检测的目标跟踪方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210114728A (ko) 2020-03-11 2021-09-24 연세대학교 산학협력단 박스 레벨의 객체 위치 정보를 사용한 픽셀 레벨의 동영상 객체 추적 장치
WO2023120969A1 (ko) * 2021-12-22 2023-06-29 경기대학교 산학협력단 동영상 관계 탐지 시스템

Also Published As

Publication number Publication date
US10037610B1 (en) 2018-07-31
JP2019067404A (ja) 2019-04-25
CN109598735A (zh) 2019-04-09
EP3467774A1 (en) 2019-04-10

Similar Documents

Publication Publication Date Title
KR20190039384A (ko) 마코프체인을 사용하여 이미지 상 대상 객체를 추적, 분할하는 방법 및 장치
US8280165B2 (en) System and method for segmenting foreground and background in a video
US9947077B2 (en) Video object tracking in traffic monitoring
Weng et al. Video object tracking using adaptive Kalman filter
Sen-Ching et al. Robust techniques for background subtraction in urban traffic video
Yun et al. Scene conditional background update for moving object detection in a moving camera
JP4121376B2 (ja) 動き整合のための局所的制約
JP3178529B2 (ja) オブジェクト境界検出装置及びオブジェクト境界検出方法
KR102153607B1 (ko) 영상에서의 전경 검출 장치 및 방법
US20080037869A1 (en) Method and Apparatus for Determining Motion in Images
KR101130963B1 (ko) 형태와 특징 정보를 이용한 비정형 객체 추적 장치 및 그 방법
CN110807392B (zh) 编码控制方法以及相关装置
CN104574440A (zh) 一种视频运动目标跟踪方法及装置
CN103413120A (zh) 基于物体整体性和局部性识别的跟踪方法
US9286663B2 (en) Method and apparatus for filtering an image using a guidance image
CN104202603B (zh) 一种应用于视频帧速率上转换的运动向量场生成方法
CN109785356A (zh) 一种视频图像的背景建模方法
JP2013016171A (ja) 人体動作周期の特定と人体動作の認識の方法、装置、及びプログラム
CA3061908C (en) Ball trajectory tracking
KR102424326B1 (ko) 주목도 기반 객체 분할을 이용한 비지도 비디오 객체 분할장치 및 방법
CN107169997B (zh) 面向夜间环境下的背景减除方法
CN109102520A (zh) 基于模糊均值聚类与卡尔曼滤波跟踪相结合的运动目标检测方法
Liu et al. Cross-Scene crowd counting via FCN and Gaussian model
Malavika et al. Moving object detection and velocity estimation using MATLAB
Huang et al. A fast video inpainting algorithm based on state matching

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application