KR20170110609A - 타깃 획득 방법 및 장치 - Google Patents

타깃 획득 방법 및 장치 Download PDF

Info

Publication number
KR20170110609A
KR20170110609A KR1020177021351A KR20177021351A KR20170110609A KR 20170110609 A KR20170110609 A KR 20170110609A KR 1020177021351 A KR1020177021351 A KR 1020177021351A KR 20177021351 A KR20177021351 A KR 20177021351A KR 20170110609 A KR20170110609 A KR 20170110609A
Authority
KR
South Korea
Prior art keywords
target
video frame
region
global
scale
Prior art date
Application number
KR1020177021351A
Other languages
English (en)
Other versions
KR102507941B1 (ko
Inventor
수안 진
Original Assignee
알리바바 그룹 홀딩 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 알리바바 그룹 홀딩 리미티드 filed Critical 알리바바 그룹 홀딩 리미티드
Publication of KR20170110609A publication Critical patent/KR20170110609A/ko
Application granted granted Critical
Publication of KR102507941B1 publication Critical patent/KR102507941B1/ko

Links

Images

Classifications

    • G06K9/00744
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06K9/42
    • G06K9/4633
    • G06K9/4652
    • G06K9/522
    • G06K9/527
    • G06K9/6218
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • G06V10/431Frequency domain transformation; Autocorrelation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/48Extraction of image or video features by mapping characteristic values of the pattern into a parameter space, e.g. Hough transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/52Scale-space analysis, e.g. wavelet analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20016Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20072Graph-based image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30232Surveillance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/32Normalisation of the pattern dimensions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

타깃 획득 방법은, 복수의 비디오 프레임의 각각의 비디오 프레임의 글로벌 특성(global feature)에 따라서, 비디오 프레임의 각각의 스케일의 타깃 사전 예상 위치를 획득하는 단계와, 각각의 비디오 프레임 내의 타깃 사전 예상 위치를 수집해서 대응하는 타깃 후보 영역을 획득하는 단계와, 타깃 후보 영역의 신뢰도 레벨 및 대응하는 스케일 처리와 조합해서, 각각의 비디오 프레임 내의 타깃 후보 영역 모두에 따라서, 비디오 프레임 내의 타깃 실제 영역을 판정하는 단계를 포함한다. 본 개시의 기술은 하나 이상의 타깃을 빠르고 효율적으로 획득하며, 상세하게 다수의 타깃을 정확하게 구별해서 획득할 수 있다.

Description

타깃 획득 방법 및 장치
본 출원은 2015년 2월 4일에 출원된 중국 특허 출원 제201510059261.5호 "Method and Apparatus for Target Acquisition"의 우선권을 주장하며, 그 전체 내용은 여기에 참조로서 포함된다.
본 개시는 통신 및 컴퓨터 분야에 관한 것으로, 상세하게는 타깃 획득 방법 및 장치에 관한 것이다.
4G 시대가 도래함에 따라서, 모바일 단말의 정보 전달 방법은 텍스트 및 이미지로 한정되지 않으며, 더 일반적으로는 비디오에 이르렀다. 많은 인터넷 회사에서 관련 애플리케이션을 런칭했으며, 비디오 정보를 획득하기 위한 기술은 최근의 연구 핫스팟 중 하나가 되었다.
공간 추적 방법 및 시간-공간 추적 방법을 포함하는, 기존의 멀티-타깃 추적 기술은 주로 레이더 및 항공 분야에 적용된다. 공간 추적 방법은 이미지 신호의 각 프레임을 개별적으로 처리하는 단계와 타깃 신호의 특성을 이용해서 2차원 공간에서의 이동 타깃을 추적하는 단계를 포함한다. 시간-공간 추적 방법은 공간 도메인에서의 타깃의 특성 및 시간 도메인에서의 타깃의 이동 특성을 이용하는 단계를 포함하고, 이는 대비 추적 및 이미지-관련 추적으로 나누어진다. 다른 기술은 입자 필터에 기초하는 방법, 민 시프트(mean shift)에 기초한 방법 등을 포함한다.
기존의 멀티-타깃 추적 기술은 통상적으로 하나의 응용 가능 시나리오 및 하나의 추적 타깃 타입을 갖는다. 그 이유는 한편으로는 기존의 멀티-클래스 분류기는 분류 정확도가 낮고, DNN(deep neural networks)와 같은 복잡한 분류 알고리즘은 동작 효율을 고려할 때 사용될 수 없으며, 다른 한편으로는 멀티-타깃 추적이 타깃과 배경을 구별할 수 있어야 하고 타깃 사이에서도 구별할 수 있어야 하기 때문이다.
타깃 추적 알고리즘에서, 간단한 단일 타깃의 경우에, 기존의 Open TLD는 안정된 효율을 달성하고, 그 소스 코드는 오픈되지만, 이 단일 타깃과만 관련된다. 기존 해법(CNN을 통해서 유니버설 멀티-클래스 타깃 모델을 성립하고, 비디오의 제 1 프레임의 시작을 검출하는 멀티-타깃 검출을 수행하며, 각각의 타깃의 위치를 제공하고, 이후에 종래의 타깃 추적 방법을 이용해서 추적을 실행함)은 멀티-타깃 검출 동안 많은 양의 계산을 소비하고, 상당한 모델을 오프라인으로 트레이닝해야 하며, 이는 계산 및 저장부를 상당히 소비해서, 비디오 내의 실시간 애플리케이션의 요건을 만족시키지 않는다.
본 개요는 이하 설명되는 개념 중 일부를 간략한 형태로 소개하기 위해서 제공된다. 본 개요는 청구 대상의 중요한 특성이나 필수적인 특성을 모두 나타내고자 하는 것은 아니며, 청구 대상의 범주를 결정하는 것을 돕는데 사용되는 것은 아니다. 용어 '기술 혹은 기술적인 해법'은 상기 문맥 및 본 개시를 통해서 가능해지는 예컨대 장치, 시스템, 방법 및/또는 컴퓨터 판독 가능 인스트럭션을 가리킨다.
본 개시의 목적은 다수의 타깃을 정확하게 구별하고 획득하는 문제를 해결하는 타깃 획득 방법 및 장치를 제공하는 것이다.
이와 같은 관점에서, 본 개시는 타깃 획득 방법을 제공하며, 이는
각각의 비디오 프레임의 글로벌 특성(global feature)에 따라서, 복수의 비디오 프레임의 각각의 비디오 프레임 내의 복수의 스케일의 타깃 사전 예상 위치를 획득하는 단계와,
각각의 비디오 프레임 내의 타깃 사전 예상 위치를 수집해서(cluster) 대응하는 타깃 후보 영역을 획득하는 단계와,
하나 이상의 타깃 후보 영역의 신뢰도 레벨 및 대응하는 스케일 처리와 조합해서, 각각의 비디오 프레임 내의 하나 이상의 타깃 후보 영역 모두에 따라서, 비디오 프레임 내의 타깃 실제 영역(target actual region)을 판정하는 단계
를 포함한다.
또한, 타깃 후보 영역의 신뢰도 레벨 및 대응하는 스케일 처리와 조합해서, 각각의 비디오 프레임 내의 타깃 후보 영역 모두에 따라서, 비디오 프레임 내의 타깃 실제 영역을 판정하는 단계 이후에, 이 방법은,
2개의 인접 시점에 있는 비디오 프레임들 내의 동일한 타깃 실제 영역을 비교해서 비디오 프레임 내의 타깃 실제 영역이 무효한지 판정하는 단계
를 더 포함한다.
또한, 각각의 비디오 프레임의 글로벌 특성에 따라서, 비디오 프레임 내의각각의 스케일의 타깃 사전 예상 위치를 획득하는 단계 이전에, 이 방법은,
각각의 비디오 프레임에 대해서 크기 정규화를 수행하는 단계를 더 포함한다.
또한, 글로벌 특성은 글로벌 그레이스케일 특성과, 글로벌 질감 특성과, 글로벌 색상 특성과, 글로벌 움직임 특성 중 하나 이상을 포함한다.
또한, 각 비디오 프레임의 글로벌 그레이스케일 특성이 비디오 프레임의 3개의 색 채널의 합의 평균값에 기초해서 획득된다.
또한, 각각의 비디오 프레임의 글로벌 질감 특성은 가보르 행렬(Gabor matrix) 혹은 캐니 연산자(Canny operator)의 에지 검출 알고리즘을 이용해서 추출된다.
또한, 각각의 비디오 프레임의 글로벌 색상 특성을 추출하는 단계는,
각각의 비디오 프레임의 3개의 컬러 채널에 따른 적색, 녹색, 청색 및 황색을 포함하는 4색의 수정된 기준 행렬을 획득하는 단계와,
적색, 녹색, 청색 및 황색을 포함하는 4색의 기준 행렬에 따른 적색-녹색 색상 특성 행렬 및 청색-황색 색상 특성 행렬을 획득하는 단계와,
적색-녹색 색상 특성 행렬과 청색-황색 색상 특성 행렬 사이의 차이의 절대값을 각각의 비디오 프레임의 글로벌 색상 특성으로서 이용하는 단계를 포함한다.
또한, 각각의 비디오 프레임의 글로벌 움직임 특성을 추출하는 단계는,
각각의 비디오 프레임의 그레이스케일 특성 맵과 대응하는 이전 비디오 프레임의 그레이스케일 특성 맵 사이의 차이의 절대값을, 비디오 프레임의 글로벌 움직임 특성으로서 이용하는 단계를 포함한다.
또한, 각각의 비디오 프레임의 글로벌 특성에 따라서 비디오 프레임 내의 각각의 스케일의 타깃 사전 예상 위치를 획득하는 단계는,
각각의 비디오 프레임의 글로벌 특성에 가중치를 부여하고, 멀티-스케일 주파수 영역 진폭 스펙트럼 필터링을 수행해서, 비디오 프레임의 각각의 스케일의 사전 예상 위치를 획득하는 단계를 포함한다.
또한, 각각의 비디오 프레임의 글로벌 특성에 가중치를 부여하고, 멀티-스케일 주파수 영역 진폭 스펙트럼 필터링을 수행해서, 비디오 프레임의 각각의 스케일의 사전 예상 위치를 획득하는 단계는,
각각의 비디오 프레임의 글로벌 특성에 가중치를 부여해서 행렬 다항식(a matrix polynomial)을 획득하는 단계와,
행렬 다항식에 대해서 다항식 푸리에 변환을 수행해서 주파수 도메인 다항식 행렬을 획득하는 단계와,
주파수 도메인 다항식 행렬에 대해서 멀티-스케일 진폭 스펙트럼 필터링을 수행해서 각각의 스케일의 주파수 도메인을 획득하는 단계와,
각각 스케일의 주파수 도메인에 대해서 역 푸리에 변환을 수행해서 각각의 비디오 프레임의 각각의 스케일의 타깃 사전 예상 위치를 획득하는 단계
를 포함한다.
또한, 주파수 도메인 다항식 행렬에 대해서 멀티-스케일 진폭 스펙트럼 필터링을 수행해서 각각의 스케일의 주파수 도메인을 획득하는 단계는,
주파수 도메인 다항식 행렬에 따라서 대응하는 진폭 스펙트럼을 획득하는 단계와,
진폭 스펙트럼에 대해서 가우시언 저역 통과 필터를 이용해서 사전 설정된 멀티-스케일 진폭 스펙트럼 필터링을 수행해서, 각각 스케일의 필터링된 진폭 스펙트럼을 획득하는 단계와,
각각 스케일의 위상 스펙트럼 및 필터링된 진폭 스펙트럼에 따라서 각각의 스케일의 필터링된 주파수 도메인을 획득하는 단계
를 포함한다.
또한, 각각의 비디오 프레임 내의 타깃 사전 예상 위치를 수집해서 하나 이상의 타깃 후보 영역을 획득하는 단계는,
각각의 비디오 프레임의 각각의 스케일의 각각의 타깃 사전 예상 위치에 따라서 대응하는 타깃 후보 영역을 획득하는 단계와,
각각의 타깃 후보 영역 내의 픽셀의 수가 사전 설정된 수보다 작은지 여부를 판정하고, 작으면, 타깃 후보 영역을 필터링해서 제거하는 단계와,
필터링되어 제거되지 않은 각각의 타깃 후보 영역에 대해서 히스토그램을 작성하고, 이 히스토그램을, 대응하는 타깃 후보 영역의 신뢰도 레벨로서 이용해서, 각각의 타깃 후보 영역의 정보 엔트로피를 계산하는 단계
를 포함한다.
또한, 각각의 비디오 프레임의 각각의 스케일의 각각의 타깃 사전 예상 위치에 따라서 대응하는 타깃 후보 영역을 획득하는 단계는,
현재 비디오 프레임의 현재 스케일의 현재 타깃 사전 예상 위치로서, 각각의 비디오 프레임의 각각의 스케일의 각각의 타깃 사전 예상 위치를 순차적으로 사용하고, 현재 비디오 프레임의 현재 스케일의 현재 타깃 사전 예상 위치에 대해서 다음 처리를 순차적으로 수행하는 단계
를 포함하고, 이 다음 처리는,
현재의 비디오 프레임의 현재의 스케일의 현재의 타깃 사전 예상 위치의 픽셀을, 미방문(unvisited)이라고 라벨링하는 처리와,
현재의 스케일의 현재의 타깃 사전 예상 위치를 스캐닝하고, 미방문이라고 라벨링되어 있으며 현재 타깃 사전 예상 위치 내의 사전 설정된 값보다 큰 픽셀 값을 가진 픽셀을 중앙 픽셀로서 발견하고, 중앙 픽셀을 방문(visited)이라고 라벨링하는 처리와,
미방문이라고 라벨링되고 중앙 픽셀의 이웃하는 도메인 내의 사전 설정된 값보다 큰 픽셀값을 가진 다른 픽셀을 획득하며, 획득한 미방문이라고 라벨링되고 사전 설정된 값보다 큰 픽셀값을 가진 다른 픽셀을, 방문이라고 라벨링하는 처리와,
현재의 타깃 사전 예상 위치에 대응하는 타깃 후보 영역을 초기화하고, 중앙 픽셀 및 미방문이라고 라벨링되고 이웃하는 도메인 내의 사전 설정된 값보다 큰 픽셀값을 가진 다른 픽셀을 타깃 후보 영역에 추가하는 처리를 포함한다.
또한, 타깃 후보 영역의 신뢰도 레벨 및 대응하는 스케일 처리와 조합해서, 각각의 비디오 프레임 내의 타깃 후보 영역 모두에 따라서, 비디오 프레임 내의 타깃 실제 영역을 판정하는 단계는, 각각의 비디오 프레임에 대해서 다음 처리를 수행하는 단계를 포함하고, 이 다음 처리는,
각각의 비디오 프레임의 모든 스케일의 타깃 후보 영역에 대해서 영역 트리 구조를 큰 스케일부터 작은 스케일의 순서로 설정하는 처리와,
각각의 비디오 프레임의 영역 트리 구조 및 타깃 후보 영역의 신뢰도 레벨에 따라서 각각의 비디오 프레임의 타깃 실제 영역을 획득하는 처리를 포함한다.
또한, 각각의 비디오 프레임의 영역 트리 구조 및 모든 타깃 후보 영역의 신뢰도 레벨에 따라서 각각의 비디오 프레임의 타깃 실제 영역을 획득하는 단계는, 각각의 비디오 프레임의 영역 트리 구조의 각각의 노드 영역을 큰 스케일부터 작은 스케일의 순서로 트래버스하는 단계와, 각각의 비디오 프레임의 타깃 실제 영역을 획득하도록 하기 상황에 따라서 반복 과정을 수행하는 단계를 포함하며,
부모 노드 영역 및 자식 노드 영역이 싱글 자식 트리이면, 신뢰도 레벨이 높은 노드 영역을 타깃 실제 영역으로서 직접 선택하고 반복을 종료하며,
부모 노드 영역 및 자식 노드 영역이 멀티 자식 트리이고, 현재 부모 노드 영역의 신뢰도 레벨이 2개의 자식 노드 영역 모두의 신뢰도 레벨보다 높다면, 부모 노드 영역을 타깃 실제 영역으로서 선택하고 반복을 종료하며,
부모 노드 영역 및 자식 노드 영역이 현재 멀티 자식 트리이고, 현재의 2개의 자식 노드 영역의 신뢰도 레벨이 모두 현재의 부모 노드 영역의 신뢰도 레벨보다 높다면, 2개의 자식 노드 영역을 타깃 실제 영역으로서 선택하고,
부모 노드 영역 및 자식 노드 영역이 현재 멀티 자식 트리이고, 부모 노드 영역의 신뢰도 레벨이 2개의 자식 노드 영역 중 하나의 신뢰도 레벨보다 높고, 2개의 자식 노드 영역 중 다른 하나의 신뢰도 레벨보다 낮으면, 신뢰도 레벨이 더 높은 자식 노드 영역을 타깃 실제 영역으로서 선택한다.
본 개시의 다른 측면은 타깃 획득 장치를 제공하며, 이는
각각의 비디오 프레임의 글로벌 특성에 따라서, 복수의 비디오 프레임의 각각의 비디오 프레임 내의 복수의 스케일의 타깃 사전 예상 위치를 획득하는 제 1 장치와,
각각의 비디오 프레임 내의 타깃 사전 예상 위치를 수집해서 하나 이상의 타깃 후보 영역을 획득하는 제 2 장치와,
타깃 후보 영역의 신뢰도 레벨 및 대응하는 스케일 처리와 조합해서, 각각의 비디오 프레임 내의 하나 이상의 타깃 후보 영역 모두에 따라서, 각각의 비디오 프레임 내의 타깃 실제 영역을 판정하는 제 3 장치를 포함한다.
또한, 이 장치는,
2개의 인접 시점에 있는 비디오 프레임들 내의 동일한 타깃 실제 영역을 비교해서 비디오 프레임 내의 타깃 실제 영역이 무효한지 판정하는 제 4 장치를 더 포함한다.
또한, 이 장치는,
각각의 비디오 프레임에 대해서 크기 정규화를 수행하는 제 5 장치를 포함한다.
또한, 각 비디오 프레임의 모든 글로벌 특성은 글로벌 그레이스케일 특성과, 글로벌 질감 특성과, 글로벌 색상 특성과, 글로벌 움직임 특성 중 하나 이상을 포함한다.
또한, 각 비디오 프레임의 글로벌 그레이스케일 특성이 비디오 프레임의 3개의 색 채널의 합의 평균값에 기초해서 획득된다.
또한, 각각의 비디오 프레임의 글로벌 질감 특성은 가보르 행렬 혹은 캐니 연산자의 에지 검출 알고리즘을 이용해서 추출된다.
또한, 각각의 비디오 프레임의 글로벌 색상 특성을 추출하는 것은,
각각의 비디오 프레임의 3개의 컬러 채널에 따른 적색, 녹색, 청색 및 황색을 포함하는 4색의 수정된 기준 행렬을 획득하는 것과,
적색, 녹색, 청색 및 황색을 포함하는 4색의 기준 행렬에 따른 적색-녹색 색상 특성 행렬 및 청색-황색 색상 특성 행렬을 획득하는 것과
적색-녹색 색상 특성 행렬과 청색-황색 색상 특성 행렬 사이의 차이의 절대값을 각각의 비디오 프레임의 글로벌 색상 특성으로서 이용하는 것을 포함한다.
또한, 각각의 비디오 프레임의 글로벌 움직임 특성을 추출하는 것은,
각각의 비디오 프레임의 그레이스케일 특성 맵과 대응하는 이전 비디오 프레임의 그레이스케일 특성 맵 사이의 차이의 절대값을, 비디오 프레임의 글로벌 움직임 특성으로서 이용하는 것을 포함한다.
또한, 제 1 장치는 각각의 비디오 프레임의 글로벌 특성에 가중치를 부여하고, 멀티-스케일 주파수 영역 진폭 스펙트럼 필터링을 수행해서, 비디오 프레임의 각각의 스케일의 사전 예상 위치를 획득한다.
또한, 제 1 장치는
각각의 비디오 프레임의 글로벌 특성에 가중치를 부여해서 행렬 다항식을 획득하는 제 1의 제 1 유닛과,
행렬 다항식에 대해서 다항식 푸리에 변환을 수행해서 주파수 도메인 다항식 행렬을 획득하는 제 1의 제 2 유닛과,
주파수 도메인 다항식 행렬에 대해서 멀티-스케일 진폭 스펙트럼 필터링을 수행해서 각각의 스케일의 주파수 도메인을 획득하는 제 1의 제 3 유닛과,
각각 스케일의 주파수 도메인에 대해서 역 푸리에 변환을 수행해서 각각의 비디오 프레임의 각각의 스케일의 타깃 사전 예상 위치를 획득하는 제 1의 제 4 유닛
을 포함한다.
제 1의 제 3 유닛은,
주파수 도메인 다항식 행렬에 따라서 대응하는 진폭 스펙트럼을 획득하는 제 1의 제 3의 제 1 유닛과,
진폭 스펙트럼에 대해서 가우시언 저역 통과 필터를 이용해서 사전 설정된 멀티-스케일 진폭 스펙트럼 필터링을 수행해서, 각각 스케일의 필터링된 진폭 스펙트럼을 획득하는 제 1의 제 3의 제 2 유닛과,
각각 스케일의 위상 스펙트럼 및 필터링된 진폭 스펙트럼에 따라서 각각의 스케일의 필터링된 주파수 도메인을 획득하는 제 1의 제 3의 제 3 유닛
을 포함한다.
상기 제 2 장치는,
각각의 비디오 프레임의 각각의 스케일의 각각의 타깃 사전 예상 위치에 따라서 대응하는 타깃 후보 영역을 획득하는 제 2의 제 1 유닛과,
각각의 타깃 후보 영역 내의 픽셀의 수가 사전 설정된 수보다 작은지 여부를 판정하고, 작으면, 타깃 후보 영역을 필터링해서 제거하는 제 2의 제 2 유닛과,
타깃 후보 영역에 대해서, 필터링되어 제거되지 않은 각각의 타깃 후보 영역에 대해서 히스토그램을 작성하고, 이 히스토그램을, 대응하는 타깃 후보 영역의 신뢰도 레벨로서 이용해서, 각각의 타깃 후보 영역의 정보 엔트로피를 계산하는 제 2의 제 3 유닛을 포함한다.
또한, 제 2의 제 1 유닛은 현재 비디오 프레임의 현재 스케일의 현재 타깃 사전 예상 위치로서, 각각의 비디오 프레임의 각각의 스케일의 각각의 타깃 사전 예상 위치를 순차적으로 사용하고, 현재 비디오 프레임의 현재 스케일의 현재 타깃 사전 예상 위치에 대해서 다음 처리를 순차적으로 수행하며,
현재의 비디오 프레임의 현재의 스케일의 현재의 타깃 사전 예상 위치의 픽셀을, 미방문이라고 라벨링하는 처리와,
현재의 스케일의 현재의 타깃 사전 예상 위치를 스캐닝하고, 미방문이라고 라벨링되어 있으며 현재 타깃 사전 예상 위치 내의 사전 설정된 값보다 큰 픽셀 값을 가진 픽셀을 중앙 픽셀로서 발견하고, 중앙 픽셀을 방문이라고 라벨링하는 처리와,
미방문이라고 라벨링되고 중앙 픽셀의 이웃하는 도메인 내의 사전 설정된 값보다 큰 픽셀값을 가진 다른 픽셀을 획득하며, 획득한 미방문이라고 라벨링되고 사전 설정된 값보다 큰 픽셀값을 가진 다른 픽셀을, 방문이라고 라벨링하는 처리와,
현재의 타깃 사전 예상 위치에 대응하는 타깃 후보 영역을 초기화하고, 중앙 픽셀 및 미방문이라고 라벨링되고 이웃하는 도메인 내의 사전 설정된 값보다 큰 픽셀값을 가진 다른 픽셀을 타깃 후보 영역에 추가하는 처리를 포함한다.
제 3 장치는,
각각의 비디오 프레임의 모든 스케일의 타깃 후보 영역에 대해서 영역 트리 구조를 큰 스케일부터 작은 스케일의 순서로 설정하는 제 3의 제 1 유닛과,
각각의 비디오 프레임의 영역 트리 구조 및 모든 타깃 후보 영역의 신뢰도 레벨에 따라서 각각의 비디오 프레임의 타깃 실제 영역을 획득하는 제 3의 제 2 유닛을 포함한다.
또한, 제 3의 제 2 유닛은, 각각의 비디오 프레임의 영역 트리 구조의 각각의 노드 영역을 큰 스케일부터 작은 스케일의 순서로 트래버스하고, 각각의 비디오 프레임의 타깃 실제 영역을 획득하도록 하기 상황에 따라서 반복 과정을 수행하는 하며,
부모 노드 영역 및 자식 노드 영역이 싱글 자식 트리이면, 신뢰도 레벨이 높은 노드 영역을 타깃 실제 영역으로서 직접 선택하고 반복을 종료하며,
부모 노드 영역 및 자식 노드 영역이 멀티 자식 트리이고, 현재 부모 노드 영역의 신뢰도 레벨이 2개의 자식 노드 영역 모두의 신뢰도 레벨보다 높다면, 부모 노드 영역을 타깃 실제 영역으로서 선택하고 반복을 종료하며,
부모 노드 영역 및 자식 노드 영역이 현재 멀티 자식 트리이고, 현재의 2개의 자식 노드 영역의 신뢰도 레벨이 모두 현재의 부모 노드 영역의 신뢰도 레벨보다 높다면, 2개의 자식 노드 영역을 타깃 실제 영역으로서 선택하고,
부모 노드 영역 및 자식 노드 영역이 현재 멀티 자식 트리이고, 부모 노드 영역의 신뢰도 레벨이 2개의 자식 노드 영역 중 하나의 신뢰도 레벨보다 높고, 2개의 자식 노드 영역 중 다른 하나의 신뢰도 레벨보다 낮으면, 신뢰도 레벨이 더 높은 자식 노드 영역을 타깃 실제 영역으로서 선택한다.
종래의 기술에 비해서, 본 개시의 기술은 각각의 비디오 프레임의 글로벌 특성에 따라서, 각각의 비디오 프레임 내의 복수의 스케일의 타깃 사전 예상 위치를 획득하고, 각각의 비디오 프레임 내의 타깃 사전 예상 위치를 수집해서 대응하는 타깃 후보 영역을 획득하며, 타깃 후보 영역의 신뢰도 레벨 및 대응하는 스케일 처리와 조합해서, 각각의 비디오 프레임 내의 모든 타깃 후보 영역 모두에 따라서, 비디오 프레임 내의 타깃 실제 영역을 판정한다.
또한, 본 개시의 기술은 2개의 인접 시점에 있는 비디오 프레임들 내의 동일한 타깃 실제 영역의 중앙 위치 사이의 거리가 사전 설정된 임계값 이상인지 여부가 계산되고, 임계값 이상이면, 2개의 인접 시점 중 후자에 있는 비디오 프레임 내의 타깃 실제 영역은 무효한 것이라고 판정되며, 이로써 비디오의 타깃의 후속 추적의 정확도를 더 높일 수 있고, 비디오 분류를 위한 기본 특성을 제공할 수 있다.
첨부된 도면을 참조로 비한정의 예시적인 실시예의 상세한 설명을 제공함으로써, 본 개시의 특성, 목적 및 이점을 설명한다.
도 1은 본 개시의 일 측면에 따른 예시적인 타깃 획득 방법의 흐름도,
도 2는 본 개시의 예시적인 실시예에 따른 예시적인 획득 방법의 흐름도,
도 3은 본 개시의 다른 예시적인 실시예에 따른 예시적인 타깃 획득 방법의 흐름도,
도 4는 본 개시의 또 다른 예시적인 실시예에 따른 예시적인 타깃 획득 방법의 흐름도,
도 5는 본 개시의 또 다른 예시적인 실시예에 따른 예시적인 타깃 획득 방법의 흐름도,
도 6은 본 개시의 또 다른 예시적인 실시예에 따른 예시적인 타깃 획득 방법의 흐름도,
도 7은 본 개시의 또 다른 예시적인 실시예에 따른 예시적인 타깃 획득 방법의 흐름도,
도 8은 본 개시의 또 다른 예시적인 실시예에 따른 예시적인 타깃 획득 방법의 흐름도,
도 9은 본 개시의 예시적인 실시예에 따른 예시적인 멀티-스케일 처리된 멀티 자식 트리를 나타내는 도면,
도 10은 본 개시의 예시적인 실시예에 따른 예시적인 멀티-스케일 처리된 싱글 자식 트리를 나타내는 도면,
도 11은 본 개시의 또 다른 예시적인 실시예에 따른 예시적인 타깃 획득 방법의 흐름도,
도 12는 본 개시의 또 다른 측면에 따른 예시적인 타깃 획득 방법의 개략도,
도 13은 본 개시의 예시적인 실시예에 따른 예시적인 타깃 획득 방법의 개략도,
도 14는 본 개시의 또 다른 실시예에 따른 예시적인 타깃 획득 방법의 개략도,
도 15는 본 개시의 또 다른 실시예에 따른 예시적인 타깃 획득 장치의 개략도,
도 16은 본 개시의 또 다른 실시예에 따른 예시적인 타깃 획득 장치의 개략도,
도 17은 본 개시의 또 다른 실시예에 따른 예시적인 타깃 획득 장치의 개략도,
도 18은 본 개시의 또 다른 예시적인 실시예에 따른 예시적인 타깃 획득 장치의 개략도,
첨부된 도면에서 같은 혹은 유사한 참조 번호는 동일한 혹은 유사한 컴포넌트를 가리킨다.
본 개시의 전반적인 구성에서, 단말, 서빙 네트워크의 장치, 및 신뢰 가능 파티는 모두 하나 이상의 프로세서(CPU), 입출력 인터페이스, 네트워크 인터페이스 및 메모리를 포함한다.
메모리는, 휘발성 메모리, RAM 및/또는 예컨대, ROM이나 플래시 RAM과 같은 비휘발성 메모리와 같은 다양한 타입의 컴퓨터 판독 가능 매체를 포함할 수 있다. 메모리는 컴퓨터 판독 가능 매체의 예이다.
컴퓨터 판독 가능 매체는 비휘발성 및 휘발성 매체를 포함하고, 또한 이동 가능형 및 이동 불가능형 매체를 포함하며, 임의의 방법 혹은 기술을 이용해서 정보 저장을 구현할 수 있다. 정보는 컴퓨터 판독 가능 인스트럭션, 데이터 구조 및 프로그램이나 다른 데이터의 모듈이 될 수 있다. 컴퓨터의 저장 매체는 예컨대, PRAM, SRAM, DRAM, RAM, ROM, EEPROM, 플래시 메모리나 다른 메모리 기술, CD-ROM, DVD 혹은 다른 광학식 저장부, 카세트 테이프, 자기 테이프/자기 디스크 저장부 혹은 다른 자기 저장 장치, 혹은 임의의 다른 비전송형 매체를 포함할 수 있지만, 이것으로 한정되는 것은 아니며, 컴퓨팅 장치에 의해 액세스되는 정보를 저장하는데 사용될 수 있다. 본 명세서의 정의에 따라서, 컴퓨터 판독 가능 매체는 변조 데이터 신호 및 반송파와 같은, 일시적 매체는 포함하지 않는다.
도 1은 본 개시의 일 측면에 따른 예시적인 타깃 획득 방법의 흐름도이다. 도 1을 참조하면, 본 개시는 타깃 획득 방법을 제안하며, 여기서
S1에서, 각 비디오 프레임의 글로벌 특성에 따라서, 각 비디오 프레임 내의 다수의 스케일의 타깃 사전 예상 위치가 획득된다. 타깃 자동 선택을 구현하기 위해서, 타깃 검출을 구현하는데 특성 모델 및 분류기를 트레이닝하는 방법은 사용될 수 없다. 종래의 멀티-타깃 추적 방법 대신에, 본 개시는 중요도의 검출을 이용해서 타깃 위치의 사전 예상을 구현하며, 여기서 동일한 비디오로부터 각각의 비디오 프레임이 추출될 수 있고, 비디오 프레임에서 타깃 사전 예상 위치는 중요도 맵, 예컨대 확률 맵이다.
S2에서, 각 비디오 프레임의 타깃 사전 예상 위치를 수집해서(cluster) 대응하는 타깃 후보 영역을 획득한다.
S3에서, 비디오 프레임의 타깃 실제 영역이, 타깃 후보 영역의 신뢰도 레벨 및 대응하는 스케일 처리과 조합해서 각 비디오 프레임 내의 타깃 후보 영역 모두에 따라서 결정된다. 여기서, 하나 이상의 타깃 실제 영역이 하나 이상의 타깃을 빠르게 구현하고 효율적으로 획득될 수 있으며, 특히 다수의 타깃을 정확하게 구별해서 획득할 수 있다.
도 2는 본 개시의 예시적인 실시예에 따른 예시적인 획득 방법의 흐름도이다. 도 2를 참조하면, 도 1의 S1 이전에, 다음이 포함된다.
S0에서, 각 비디오 프레임에 대해서, 각 비디오 프레임의 줌인 및 줌아웃과 같은 크기 정규화가 수행된다. 각 비디오 프레임을 줌인 및 줌아웃 처리할 때, 손실 픽셀 값을 보간하기 위해서 이중 선형 보간법, 선형 보간법 혹은 3차 보간법과 같은 방법이 사용될 수 있다. 예컨대, 각 비디오 프레임은 64×64 픽셀로 변환될 수 있다. 따라서, S1에서, 정규화된 비디오 프레임에 따라서 각 비디오 프레임의 글로벌 특성이 획득된다. 당업자라면, 비디오 프레임에 대해서 크기 정규화를 수행하는 상기 설명은 단지 예시적인 것으로, 본 개시에 적용될 수 있는 다른 기존의 혹은 이후에 개발될 가능한 정규화법이 본 개시의 보호 범위에 포함되고, 여기에 참조로서 포함된다는 것을 이해할 것이다.
도 3은 본 개시의 예시적인 실시예에 따른 타깃 획득 방법의 흐름도이다. 도 3을 참조하면, 도 1의 S3 이후에, 이하의 동작이 수행된다.
S4에서, 비디오 프레임 내의 타깃 실제 영역이 무효한지 판정하기 위해서, 2개의 인접 시점에 있는 비디오 프레임들 내의 동일한 타깃 실제 영역이 비교된다. 예컨대, 2개의 인접 시점에 있는 비디오 프레임들 내의 동일한 타깃 실제 영역의 중앙 위치 사이의 거리가 사전 설정된 임계값 이상인지 여부가 계산되고, 임계값 이상이면, 2개의 인접 시점 중 후자에 있는 비디오 프레임 내의 타깃 실제 영역은 무효한 것이라고 판정된다. 나아가, 시점 t-1의 타깃 실제 영역으로부터 시점 t의 동일한 타깃 실제 영역까지의 기울기 및 시점 t의 타깃 실제 영역으로부터 시점 t+1의 동일한 타깃 실제 영역까지의 기울기가 더 계산된다. 전자 기울기와 후자 기울기 사이의 차이가 사전 설정된 임계값 이상인지 여부가 판정되며, 임계값 이상이면, 이는 동일한 트랙에 있지 않다는 것, 즉, 시점 t+1에 있는 타깃 실제 영역은 무효라는 것을 의미한다. 여기서, 이동 타깃의 움직임 연속성을 이용해서 추적 처리가 유효한지 여부를 판정해서, 추적하는 타깃이 폐쇄된(occlude) 것인지 즉 시나리오를 벗어난 것인지 판정하고, 이로써 비디오에서 타깃의 후속 추출에서의 정확성을 더 높일 수 있으며, 비디오 분류를 위한 기본 특성을 제공하는 등이 가능해진다. 당업자라면, 타깃 실제 영역이 무효인지 여부를 판정하는 것에 대한 상기 설명은 단지 예시적인 것으로, 본 개시에 적용 가능한 타깃 실제 영역이 무효한지 여부를 판정하는 다른 기존의 혹은 향후 개발될 설명도 본 개시의 보호 범주에 포함되고, 여기에 참조로서 포함된다는 것을 이해할 것이다.
본 개시의 예시적인 실시예에서, S4에서의 2개의 인접 시점에 있는 비디오 프레임들 내의 동일한 타깃 실제 영역 사이의 거리는 다음 식으로부터 구해진다.
Figure pct00001
여기서, region은 특정 타깃 실제 영역을 나타내고, 함수 c는 이 타깃 실제 영역의 중앙 위치를 나타내며,
Figure pct00002
는 인점 시점에 있는 동일한 타깃 실제 영역 사이의 유클리드 거리를 나타내고, t 및 t+1는 2개의 인접 시점을 나타내며, 유클리드 거리가 주어진 임계값 이상이면, 추적하는 타깃이 사라졌다거나 혹은 시점 t+1의 시야에 남아 있다고 판정된다. 이로써, S0에서 정규화된 픽셀에 따라서 임계값이 설정될 수 있다. 일 예시적인 실시예에서, S0에서 각각의 비디오 프레임이 전체적으로 64×64 픽셀로 변환되었다면, 대응하는 주어진 임계값은 4가 될 것이다. 당업자라면 동일한 타깃 실제 영역 사이의 거리를 계산하는 것에 대한 상기 설명은 단지 예시적인 것으로, 본 개시에 적용 가능한 타깃 실제 영역 사이의 거리를 계산하는 다른 기존의 혹은 향후 개발될 설명도 본 개시의 보호 범주에 포함되고, 여기에 참조로서 포함된다는 것을 이해할 것이다.
본 개시의 실시예에 따른 타깃 획득 방법에서, 글로벌 특성은 글로벌 그레이스케일 특성, 글로벌 질감 특성, 글로벌 색상 특성 및 글로벌 움직임 특성 중 하나 이상을 포함한다.
본 개시의 실시예에 따른 타깃 획득 방법에서, 각 비디오 프레임의 글로벌 그레이스케일 특성은 비디오 프레임의 3개의 색 채널의 합의 평균값에 기초해서 획득되며, 이하의 식에 따라서 구해질 수 있다.
Figure pct00003
여기서, I는 비디오 프레임의 글로벌 그레이스케일 특성을 나타내고, r은 비디오 프레임의 적색 픽셀 채널을 나타내며, g는 비디오 프레임의 녹색 픽셀 채널을 나타내고, b는 비디오 프레임의 청색 픽셀 채널을 나타낸다. 당업자라면, 글로벌 그레이스케일 특성을 획득하는 것에 대한 상기 설명은 단지 예시적인 것으로, 본 개시에 적용 가능한 글로벌 그레이스케일 특성을 획득하는 다른 기존의 혹은 향후 개발될 설명도 본 개시의 보호 범주에 포함되고, 여기에 참조로서 포함된다는 것을 이해할 것이다.
본 개시의 예시적인 실시예에 따른 타깃 획득 방법에서, 각 비디오 프레임의 글로벌 질감 특성은 가보르 행렬(Gabor matrix)(필터) 혹은 캐니 연산자(Canny operator)의 에지 검출 알고리즘을 이용해서 추출된다.
본 개시의 예시적인 실시예에서, 각 비디오 프레임의 글로벌 질감 특성을 가보르 행렬(필터)을 이용해서 추출하는 것은,
각 비디오 프레임의 글로벌 질감 특성 O로서 각 비디오 프레임의 사전 설정된 수의 방향에서 생성된 가보르 행렬 Gθ에서의 위치에 기초한 최대값을 사용하는 것을 포함하며, 이는
Figure pct00004
과 같은 식을 이용해서 표현될 수 있다. 예컨대, 가보르 행렬은 11×11 픽셀 블록의 크기를 가진 2차원 가보르 행렬 G로,
Figure pct00005
로 표현되며, 이 식에서, θ는 사전 설정된 수의 방향이고,
Figure pct00006
는 특정 방향에서의 2차원 가보르 행렬을 나타내며, X 및 Y는 방향(각도 파라미터)
Figure pct00007
의 접합 이후의 좌표 변환을 나타내며, x는 각 비디오 프레임의 픽셀의 행 좌표를 나타내고, y는 각 비디오 프레임의 픽셀의 열 좌표를 나타내며,
Figure pct00008
이고, γ는 스케일링 인자를 나타내며, σ는 유효폭을 나타내고, λ는 파장을 나타내며, 스케일링 인자, 유효폭 및 파장을 포함하는 3개의 상수의 값은 경험값이다. 예컨대, 일 실시예에서 스케일링 인자 γ의 값은 0.3이고, 유효 폭의 값은 4.5이며, 파장 λ의 값은 5.6이다. θ가 4개의 방향 0°, 45°, 90°, 135°을 갖고 있다면, 비디오 프레임의 글로벌 질감 특성 O을 획득하기 위해 각 비디오 프레임의 4방향에서 생성된 가보르 행렬 Gθ에 대한 위치에 기초해서 최대값이 획득된다. 당업자라면, 글로벌 그레이스케일 특성을 획득하는 것에 대한 상기 설명은 단지 예시적인 것으로, 본 개시에 적용 가능한 글로벌 그레이스케일 특성을 획득하는 다른 기존의 혹은 향후 개발될 설명도 본 개시의 보호 범주에 포함되고, 여기에 참조로서 포함된다는 것을 이해할 것이다.
본 개시의 예시적인 실시예에 따른 타깃 획득 방법에서, 각 비디오 프레임의 글로벌 색상 특성을 추출하는 것은
각 비디오 프레임의 3개의 컬러 채널에 따른 적색, 녹색, 청색 및 황색을 포함하는 4색의 수정된 기준 행렬 R, G, B 및 Y을 획득하는 것을 포함하며, 여기서 4색의 수정된 행렬 R, G, B 및 Y은 각 색에 대한 인간의 눈의 감도에 기초해서 설정되고, 그 식은 상세하게는 다음과 같고,
Figure pct00009
이는, 또한, 적색, 녹색, 청색 및 황색을 포함하는 4색의 기준 행렬 R, G, B 및 Y에 따른 적색-녹색 색상 특성 행렬 RG 및 청색-황색 색상 특성 행렬 BY을 획득하는 것을 포함하고, 여기서 RG=R-G이고, BY=B-Y이며,
적색-녹색 색상 특성 행렬과 청색-황색 색상 특성 행렬 사이의 차이의 절대값
Figure pct00010
을 비디오 프레임의 글로벌 색상 특성으로서 이용하는 것을 포함한다. 당업자라면, 글로벌 색상 특성을 획득하는 것에 대한 상기 설명은 단지 예시적인 것으로, 본 개시에 적용 가능한 글로벌 색상 특성을 획득하는 다른 기존의 혹은 향후 개발될 설명도 본 개시의 보호 범주에 포함되고, 여기에 참조로서 포함된다는 것을 이해할 것이다.
본 개시의 예시적인 실시예에 따른 타깃 획득 방법에서, 각 비디오 프레임의 글로벌 움직임 특성을 추출하는 것은
각 비디오 프레임의 그레이스케일 특성 맵과 대응하는 이전 비디오 프레임의 그레이스케일 특성 맵과의 차이의 절대값을 비디오 프레임의 글로벌 움직임 특성으로서 사용하는 것을 포함한다. 여기서 비디오 프레임의 글로벌 움직임 특성 M(t)의 식은 다음과 같다.
Figure pct00011
여기서, M(t)는 비디오 프레임의 글로벌 움직임 특성을 나타내고, 비디오 프레임의 시점은 시점 t이고, I(t)는 비디오 프레임의 그레이스케일 특성 맵을 나타내고, I(t-τ)는 사전 설정된 τ 프레임 이전의 비디오 프레임의 그레이스케일 특성 맵을 나타내며, 사전 설정된 τ 프레임 이전의 비디오 프레임의 시점이 t-τ이다. τ은 움직임 프레임 변경량이고, I(t)는 τ 프레임의 변경 이후의 시점 t에서의 움직임량을 나타내고, τ의 값은 비디오 스트림에서 초당 비디오 프레임의 수에 따라서 결정되고, 초당 비디오 프레임의 수가 클수록 τ의 값은 커진다. 예컨대, 일 실시예에서 τ의 값은 1 내지 5가 될 수 있고, 예시적인 실시예에서 τ의 값은 3이 될 수 있다.
I(t) 및 I(t-τ)는 식
Figure pct00012
에 따라서 획득된다.
여기서 I는 비디오 프레임의 글로벌 그레이스케일 특성을 나타내고, r은 비디오 프레임의 적색 픽셀 채널을 나타내며, g는 비디오 프레임의 녹색 픽셀 채널을 나타내고, b는 비디오 프레임의 청색 픽셀 채널을 나타낸다. 당업자라면, 글로벌 움직임 특성을 획득하는 것에 대한 상기 설명은 단지 예시적인 것으로, 본 개시에 적용 가능한 글로벌 움직임 특성을 획득하는 다른 기존의 혹은 향후 개발될 설명도 본 개시의 보호 범주에 포함되고, 여기에 참조로서 포함된다는 것을 이해할 것이다.
본 개시의 예시적인 실시예에 따른 타깃 획득 방법에서, S1에서의 동작은,
각 비디오 프레임의 글로벌 특성에 가중치를 부여하고, 멀티-스케일 주파수 영역 진폭 스펙트럼 필터링을 수행해서, 비디오 프레임의 각 스케일의 사전 예상 위치를 획득하는 것을 포함한다.
도 4는 본 개시의 예시적인 실시예에 따른 타깃 획득 방법의 흐름도이다. 도 4를 참조하면, 각 비디오 프레임의 글로벌 특성에 가중치를 부여하고, 멀티-스케일 주파수 영역 진폭 스펙트럼 필터링을 수행해서, 비디오 프레임의 각 스케일의 사전 예상 위치를 획득하는 것은 다음을 포함한다.
S11에서, 각 비디오 프레임의 글로벌 특성에 가중치를 부여해서 행렬 다항식을 획득하고, 각 비디오 프레임의 글로벌 그레이스케일 특성, 글로벌 질감 특성, 글로벌 색상 특성 및 글로벌 움직임 특성이 추출되면, 행렬 다항식은 다음과 같다.
Figure pct00013
n, m은 개별적인 행 및 열 좌표를 각각 나타내고, i, j 및 k는 행렬 다항식의 단위 행렬을 나타낸다.
S12에서, 행렬 다항식에 대해서 다항식 푸리에 변환을 수행해서 주파수 도메인 다항식 행렬을 획득하며, 여기서 주파수 도메인 다항식 행렬은 다음과 같다.
Figure pct00014
이 식에서, u 및 v는 주파수 도메인의 2차원 좌표를 나타내고, M 및 N은 비디오 프레임의 길이 및 폭을 나타내며, μ는 허수 단위를 나타내며, 즉 μ2=-1이다.
S13에서, 주파수 도메인 다항식 행렬에 대해서 멀티-스케일 진폭 스펙트럼 필터링을 수행해서 각 스케일의 주파수 도메인을 획득한다.
S14에서, 각 스케일의 주파수 도메인에 대해서 역 푸리에 변환을 수행해서 비디오 프레임의 각 스케일의 타깃 사전 예상 위치를 획득한다. 여기서 타깃 사전 예상 위치
Figure pct00015
는 다음 식에 기초해서 획득된다.
Figure pct00016
당업자라면, 타깃 사전 예상 위치를 획득하는 것에 대한 상기 설명은 단지 예시적인 것으로, 본 개시에 적용 가능한 타깃 사전 예상 위치를 획득하는 다른 기존의 혹은 향후 개발될 설명도 본 개시의 보호 범주에 포함되고, 여기에 참조로서 포함된다는 것을 이해할 것이다.
도 5는 본 개시의 예시적인 실시예에 따른 타깃 획득 방법의 흐름도이다. 도 5를 참조하면 도 4의 S13에서의 동작은 다음을 포함한다.
S131에서, 주파수 도메인 다항식 행렬에 따라서 대응하는 진폭 스펙트럼 A가 획득된다. 주파수 도메인 다항식 행렬의 진폭 스펙트럼은 다음과 같이 표현된다.
Figure pct00017
S132에서, 진폭 스펙트럼에 대해서 가우시언 저역 통과 필터를 이용해서 사전 설정된 멀티-스케일 진폭 스펙트럼 필터링을 수행해서, 각 스케일의 필터링된 진폭 스펙트럼을 획득하고, 가우시언 저역 통과 필터는 다음 형태를 갖는다.
Figure pct00018
이 식에서, H는 가우시언 저역 통과 필터 행렬이고, D는 푸리에 변환의 원점으로부터의 거리를 나타내고(거리는 유클리드 거리를 사용할 수 있다), σ는 가우시언 곡선 즉 스케일의 확대 각도(extension degree)를 나타내는데 이는 다음과 같이 표현될 수 있다.
Figure pct00019
. 여기서 다양한 크기의 타깃을 획득하는데 복수의 스케일이 사용되고,
각 스케일의 필터링된 진폭 스펙트럼은 다음 식에 따라서 획득된다.
Figure pct00020
이 식에서, AH는 각 스케일의 필터링된 진폭 스펙트럼을 나타낸다.
S133에서, 각 스케일의 위상 스펙트럼 및 필터링된 진폭 스펙트럼에 따라서 각 스케일의 필터링된 주파수 도메인이 획득되고, 각 스케일의 필터링된 주파수 도메인
Figure pct00021
은 다음과 같이 표현된다.
Figure pct00022
여기서 PH는 위상 스펙트럼을 나타낸다. 당업자라면, 주파수 도메인을 획득하는 것에 대한 상기 설명은 단지 예시적인 것으로, 본 개시에 적용 가능한 주파수 도메인을 획득하는 다른 기존의 혹은 향후 개발될 설명도 본 개시의 보호 범주에 포함되고, 여기에 참조로서 포함된다는 것을 이해할 것이다.
도 6은 본 개시의 예시적인 실시예에 따른 타깃 획득 방법의 흐름도이다. 도 6을 참조하면, 도 1의 S2의 동작은 다음을 포함한다.
S21에서, 각 비디오 프레임의 각 스케일의 각각의 타깃 사전 예상 위치에 따라서 대응하는 타깃 후보 영역이 획득된다.
S22에서, 각각의 타깃 후보 영역 내의 픽셀의 수가 사전 설정된 수보다 작은지 여부가 판정되고, 사전 설정된 수보다 작으면, 타깃 후보 영역은 필터링되어 제거된다. 예컨대, 픽셀의 수가 10 미만인 타깃 후보 영역은 필터링되어 제거되고, flag=0이 구성되며, 즉 이후에 그 영역에 대한 신뢰도 레벨은 더 이상 계산되지 않는다.
S23에서, 필터링되어 제거되지 않는 각 타깃 후보 영역에 대해서 히스토그램이 작성되고, 이 히스토그램을, 대응하는 타깃 후보 영역의 신뢰도 레벨로서 이용해서 각 타깃 후보 영역의 정보 엔트로피가 계산된다. 여기서 신뢰도 레벨은 다음 식에 따라서 획득될 수 있다.
Figure pct00023
여기서, h(n)은 히스토그램을 나타내고, p(·)는 확률 함수를 나타낸다. 당업자라면, 타깃 후보 영역 및 그 신뢰도 레벨을 획득하는 것에 대한 상기 설명은 단지 예시적인 것으로, 본 개시에 적용 가능한 타깃 후보 영역 및 그 신뢰도 레벨을 획득하는 다른 기존의 혹은 향후 개발될 설명도 본 개시의 보호 범주에 포함되고, 여기에 참조로서 포함된다는 것을 이해할 것이다.
도 7에 도시된 바와 같은 본 개시의 예시적인 실시예에 따른 타깃 획득 방법에서, 상기 S21은, 현재 비디오 프레임의 현재 스케일의 현재 타깃 사전 예상 위치로서 각 비디오 프레임의 각 스케일의 각 타깃 사전 예상 위치를 순차적으로 사용하는 것 및 현재 비디오 프레임의 현재 스케일의 상기 현재 타깃 사전 예상 위치에 대해서 다음의 처리를 순차적으로 수행하는 것을 포함한다.
S211에서, 현재의 비디오 프레임의 현재의 스케일의 타깃 사전 예상 위치의 픽셀은 미방문(unvisited)이라고 라벨링된다.
S212에서, 현재의 스케일의 현재의 타깃 사전 예상 위치를 스캐닝해서, 미방문이라고 라벨링되어 있으며 현재 타깃 사전 예상 위치 내의 사전 설정된 값보다 큰(가중된) 픽셀 값을 가진 픽셀을 중앙 픽셀로서 발견하고, 이 중앙 픽셀을 방문이라고 라벨링한다. 예컨대, 사전 설정된 값은 0.2의 위치에 있을 수 있으며 중앙 픽셀 flag=1이라고 라벨링된다.
S213에서, 미방문이라고 라벨링되고, 중앙 픽셀의 이웃 도메인에서 사전 설정된 값보다 큰(가중된) 픽셀 값을 가진 다른 픽셀을 획득하고, 획득한 미방문이라고 라벨링되고, 사전 설정된 값보다 큰(가중된) 픽셀 값을 가진 다른 픽셀은 방문이라고 라벨링된다.
S214에서, 현재의 타깃 사전 예상 위치에 대응하는 타깃 후보 영역은 초기화되고, 중앙 픽셀 및 미방문이라고 라벨링되고, 중앙 픽셀의 이웃 도메인에서 사전 설정된 값보다 큰(가중된) 픽셀 값을 가진 다른 픽셀은 타깃 후보 영역에 추가된다. 예컨대, 다른 픽셀이 P(x, y)>0.2 및 flag=0을 만족하면, P(x, y)는 중요도 맵의 (x, y) 위치에 대응하는 값이고, 이웃하는 도메인은 8개의 이웃하는 도메인 즉 스트리트(street) 이웃하는 도메인(4개의 이웃하는 도메인)이며, 여기서 각각의 타깃 사전 예상 위치는 하나의 타깃 후보 영역에 대응한다. 당업자라면, 타깃 후보 영역을 획득하는 것에 대한 상기 설명은 단지 예시적인 것으로, 본 개시에 적용 가능한 타깃 후보 영역을 획득하는 다른 기존의 혹은 향후 개발될 설명도 본 개시의 보호 범주에 포함되고, 여기에 참조로서 포함된다는 것을 이해할 것이다.
도 8은 본 개시의 또 다른 예시적인 실시예에 따른 타깃 획득 방법의 흐름도이다. 도 8을 참조하면, 도 1의 S3의 동작은 각 비디오 프레임에 대해서 이하의 처리를 포함한다.
S31에서, 각 비디오 프레임의 모든 스케일의 타깃 후보 영역에 대해서 영역 트리 구조(regional tree structure)가 큰 스케일부터 작은 스케일의 순서로 설정되며, S22에서 픽셀의 수가 사전 설정된 수보다 작은 타깃 후보 영역이 필터링되어 제거되었다면, 여기서 타깃 후보 영역은 필터링되지 않은 타깃 후보 영역이다. 예컨대, S132의 동작은 8개 스케일과 같은 다수의 스케일을 가진 가우시언 저역 통과 필터를 사용한다. 따라서, S23에서 획득한 타깃 후보 영역도 8개의 스케일로 구성되고, 여기서 영역 트리 구조는 큰 스케일부터 작은 스케일의 순서로 설정되며, 이 구조는 멀티 자식 트리 및 싱글 자식 트리를 포함하는데 이는 도 9 및 10에 각각 도시되어 있다.
S32에서, 각 비디오 프레임의 영역 트리 구조 및 모든 타깃 후보 영역의 신뢰도 레벨에 따라서 각 비디오 프레임의 타깃 실제 영역이 획득된다.
도 11에 도시된 바와 같은, 본 개시의 예시적인 실시예에 따른 타깃 획득 방법에서, S32의 동작을 각 비디오 프레임의 영역 트리 구조의 각각의 노드 영역을 큰 스케일부터 작은 스케일의 순서로 트래버스하는(traverse) 것과, 각 비디오 프레임의 타깃 실제 영역을 획득하도록 하기 상황에 따라서 반복 과정을 수행하는 것을 포함한다.
S321에서, 부모 노드 영역 및 자식 노드 영역이 현재 싱글 자식 트리이면(싱글 자식 트리 케이스), 신뢰도 레벨(conf)이 높은 노드 영역이 타깃 실제 영역으로서 직접 선택되고 반복은 종료된다.
S322에서, 부모 노드 영역 및 자식 노드 영역이 현재 멀티 자식 트리이고, 현재의 부모 노드 영역의 신뢰도 레벨이 2개의 자식 노드 영역 모두의 신뢰도 레벨보다 높다면(멀티 자식 트리 케이스 1), 부모 노드 영역이 타깃 실제 영역으로서 선택되고, 반복은 종료된다.
S323에서, 부모 노드 영역 및 자식 노드 영역이 현재 멀티 자식 트리이고, 현재의 2개의 자식 노드 영역의 신뢰도 레벨이 모두 현재의 부모 노드 영역의 신뢰도 레벨보다 높다면(멀티 자식 트리 케이스 2), 2개의 자식 노드 영역이 타깃 실제 영역으로서 선택된다. 이 동작 이후에 나머지 자식 노드 영역을 트래버스하는 동안에, 이 반복 과정을 싱글 자식 트리 케이스나 멀티 자식 트리 케이스 1이 발생할 때까지, 멀티 자식 트리 케이스 2 및 멀티 자식 트리 케이스 3에 따라서 낮은 스케일의 노드 영역에 대해서 되풀이해서 계속할 필요가 있다.
S324에서, 부모 노드 영역 및 자식 노드 영역이 현재 멀티 자식 트리이고, 부모 노드 영역의 신뢰도 레벨이 2개의 자식 노드 영역 중 하나의 신뢰도 레벨보다 높고, 2개의 자식 노드 영역 중 다른 하나의 신뢰도 레벨보다 낮으면(멀티 자식 트리 케이스 2), 신뢰도 레벨이 더 높은 자식 노드 영역이 타깃 실제 영역으로서 선택된다. 이 단계 이후에 나머지 자식 노드 영역을 트래버스하는 동안에, 이 반복 과정을 싱글 자식 트리 케이스나 멀티 자식 트리 케이스 1이 발생할 때까지, 멀티 자식 트리 케이스 2 및 멀티 자식 트리 케이스 3에 따라서 낮은 스케일의 노드 영역에 대해서 되풀이해서 계속할 필요가 있다. 당업자라면, 타깃 실제 영역을 획득하는 것에 대한 상기 설명은 단지 예시적인 것으로, 본 개시에 적용 가능한 타깃 실제 영역을 획득하는 다른 기존의 혹은 향후 개발될 설명도 본 개시의 보호 범주에 포함되고, 여기에 참조로서 포함된다는 것을 이해할 것이다.
도 12에 도시된 바와 같이, 본 개시의 다른 측면은 또한 타깃 획득 장치(100)를 제공하며, 이는 하나 이상의 프로세서(102) 즉 데이터 처리 유닛 및 메모리(104)를 포함한다. 장치(100)는 또한 하나 이상의 입출력 인터페이스(106) 및 네트워크 인터페이스(108)를 포함할 수 있다. 메모리(104)는 예컨대, 컴퓨터 판독 가능 매체이다.
메모리(104)는 복수의 모듈 혹은 유닛을 저장할 수 있으며, 이는 다음을 포함한다.
각 비디오 프레임의 글로벌 특성에 따라서, 각 비디오 프레임 내의 각각의 스케일의 타깃 사전 예상 위치를 획득하는 제 1 장치(1). 타깃 자동 선택을 구현하기 위해서, 타깃 검출을 구현하는데 특성 모델 및 분류기를 트레이닝하는 방법은 사용될 수 없다. 종래의 멀티-타깃 추적 방법과는 달리, 본 개시는 중요도의 검출을 이용해서 타깃 위치의 사전 예상을 구현하며, 여기서 동일한 비디오로부터 각각의 비디오 프레임이 추출될 수 있고, 비디오 프레임에서 타깃 사전 예상 위치는 중요도 맵, 예컨대 확률 맵이다.
각 비디오 프레임의 타깃 사전 예상 위치를 수집해서 대응하는 타깃 후보 영역을 획득하는 제 2 장치(2).
타깃 후보 영역의 신뢰도 레벨과 대응하는 스케일 처리와 조합한 각 비디오 프레임 내의 타깃 후보 영역 모두에 따라서, 비디오 프레임의 타깃 실제 영역을 결정하는 제 3 장치(3). 여기서, 하나 이상의 타깃 실제 영역이 하나 이상의 타깃을 빠르게 구현하고 효율적으로 획득하도록 획득될 수 있으며, 특히 다수의 타깃을 정확하게 구별해서 획득할 수 있다.
도 13에 도시된 바와 같이, 본 개시의 예시적인 실시예에 따른 타깃 획득 장치에서, 장치(100)는 또한 다음을 포함한다.
각 비디오 프레임에 대해서 크기 정규화를 수행하는 제 5 장치(5). 여기서 각 비디오 프레임에 대한 줌인 및 줌아웃 처리에서, 손실 픽셀 값을 보간하기 위해서 이중 선형 보간법, 선형 보간법 혹은 3차 보간법과 같은 방법이 사용될 수 있으며, 예컨대, 각 비디오 프레임은 64×64 픽셀로 변환될 수 있다. 따라서, 제 1 장치(1)에서, 정규화된 비디오 프레임에 따라서 각 비디오 프레임의 글로벌 특성이 획득된다. 당업자라면, 비디오 프레임에 대해서 크기 정규화를 수행하는 상기 설명은 단지 예시적인 것으로, 본 개시에 적용될 수 있는 다른 기존의 혹은 이후에 개발될 가능한 정규화법이 본 개시의 보호 범위에 포함되고, 여기에 참조로서 포함된다는 것을 이해할 것이다.
도 14에 도시된 바와 같이, 본 개시의 예시적인 실시예에 따른 타깃 획득 장치에서, 장치(100)는 또한 다음을 포함한다.
비디오 프레임 내의 타깃 실제 영역이 무효한지 판정하기 위해서, 2개의 인접 시점에 있는 비디오 프레임들 내의 동일한 타깃 실제 영역을 비교하는 제 4 장치(4). 예컨대, 2개의 인접 시점에 있는 비디오 프레임들 내의 동일한 타깃 실제 영역의 중앙 위치들 사이의 거리가 사전 설정된 임계값 이상인지 여부가 계산될 수 있고, 임계값 이상이면, 제 4 장치(4)는 2개의 인접 시점 중 후자에 있는 비디오 프레임 내의 타깃 실제 영역은 무효인지 판정한다. 나아가, 시점 t-1의 타깃 실제 영역으로부터 시점 t의 동일한 타깃 실제 영역까지의 기울기 및 시점 t의 타깃 실제 영역으로부터 시점 t+1의 타깃 실제 영역까지의 기울기가 더 계산되며, 전자 기울기와 후자 기울기 사이의 차이가 사전 설정된 임계값 이상인지 여부가 판정되고, 임계값 이상이면, 제 4 장치(4)는 이들이 동일한 트랙에 있지 않다는 것, 즉, 시점 t+1에 있는 타깃 실제 영역은 무효라고 판정한다. 여기서, 이동 타깃의 움직임 연속성을 이용해서 추적 처리가 유효한지 여부를 판정해서, 추적하는 타깃이 폐쇄된 것인지 즉 시나리오를 벗어난 것인지 판정하고, 이로써 비디오에서 타깃의 후속 추출에서의 정확성을 더 높일 수 있으며, 비디오 분류를 위한 기본 특성을 제공하는 것이 가능해진다. 당업자라면, 타깃 실제 영역이 무효인지 여부를 판정하는 것에 대한 상기 설명은 단지 예시적인 것으로, 본 개시에 적용 가능한 타깃 실제 영역이 무효한지 여부를 판정하는 다른 기존의 혹은 향후 개발될 설명도 본 개시의 보호 범주에 포함되고, 여기에 참조로서 포함된다는 것을 이해할 것이다.
본 개시의 예시적인 실시예에 따른 타깃 획득 장치에서, 2개의 인접 시점에 있는 비디오 프레임들 내의 동일한 타깃 실제 영역 사이의 거리는 제 4 장치(4)에 의해서 다음 식으로부터 구해진다.
Figure pct00024
여기서, region은 특정 타깃 실제 영역을 나타내고, 함수 c는 이 타깃 실제 영역의 중앙 위치를 나타내며,
Figure pct00025
는 인점 시점에 있는 동일한 타깃 실제 영역 사이의 유클리드 거리를 나타내고, t 및 t+1는 2개의 인접 시점을 나타내며, 유클리드 거리가 주어진 임계값 이상이면, 추적하는 타깃이 사라졌다거나 혹은 시점 t+1의 시야에 남아 있다고 판정된다. 이로써, 제 5 장치(5)에 의해서 정규화된 픽셀에 따라서 임계값이 설정될 수 있다. 일 예시적인 실시예에서, 제 5 장치(5)가 각각의 비디오 프레임을 전체적으로 64×64 픽셀로 변환했다면, 대응하는 주어진 임계값은 4가 될 것이다. 당업자라면 동일한 타깃 실제 영역 사이의 거리를 계산하는 것에 대한 상기 설명은 단지 예시적인 것으로, 본 개시에 적용 가능한 타깃 실제 영역 사이의 거리를 계산하는 다른 기존의 혹은 향후 개발될 설명도 본 개시의 보호 범주에 포함되고, 여기에 참조로서 포함된다는 것을 이해할 것이다.
본 개시의 예시적인 실시예에 따른 타깃 획득 장치에서, 각 비디오 프레임의 모든 글로벌 특성은 글로벌 그레이스케일 특성, 글로벌 질감 특성, 글로벌 색상 특성 및 글로벌 움직임 특성 중 하나 이상을 포함한다.
본 개시의 예시적인 실시예에서, 각 비디오 프레임의 글로벌 그레이스케일 특성은 비디오 프레임의 3개의 색 채널의 합의 평균값에 기초해서 획득되며, 특히 이하의 식으로부터 구해질 수 있다.
Figure pct00026
여기서, I는 비디오 프레임의 글로벌 그레이스케일 특성을 나타내고, r은 비디오 프레임의 적색 픽셀 채널을 나타내며, g는 비디오 프레임의 녹색 픽셀 채널을 나타내고, b는 비디오 프레임의 청색 픽셀 채널을 나타낸다. 당업자라면, 글로벌 그레이스케일 특성을 획득하는 것에 대한 상기 설명은 단지 예시적인 것으로, 본 개시에 적용 가능한 글로벌 그레이스케일 특성을 획득하는 다른 기존의 혹은 향후 개발될 설명도 본 개시의 보호 범주에 포함되고, 여기에 참조로서 포함된다는 것을 이해할 것이다.
본 개시의 예시적인 실시예에 따른 타깃 획득 장치에서, 각 비디오 프레임의 글로벌 질감 특성은 가보르 행렬(필터) 혹은 캐니 연산자의 에지 검출 알고리즘을 이용해서 추출된다.
본 개시의 예시적인 실시예에 따른 타깃 획득 장치에서, 각 비디오 프레임의 글로벌 질감 특성을 가보르 행렬(필터)을 이용해서 추출하는 것은,
각 비디오 프레임의 글로벌 질감 특성 O로서 각 비디오 프레임의 사전 설정된 수의 방향에서 생성된 가보르 행렬 Gθ에서의 위치에 기초한 최대값을 사용하는 것을 포함하며, 이는
Figure pct00027
과 같은 식을 이용해서 표현될 수 있다. 예컨대, 가보르 행렬은 11×11 픽셀 블록의 크기를 가진 2차원 가보르 행렬 G로,
Figure pct00028
로 표현되며, 이 식에서, θ는 사전 설정된 수의 방향이고,
Figure pct00029
는 특정 방향에서의 2차원 가보르 행렬을 나타내며, X 및 Y는 방향(각도 파라미터)
Figure pct00030
의 접합 이후의 좌표 변환을 나타내며, x는 각 비디오 프레임의 픽셀의 행 좌표를 나타내고, y는 각 비디오 프레임의 픽셀의 열 좌표를 나타내며,
Figure pct00031
이고, γ는 스케일링 인자를 나타내며, σ는 유효폭을 나타내고, λ는 파장을 나타내며, 스케일링 인자, 유효폭 및 파장을 포함하는 3개의 상수의 값은 경험값이다. 예컨대, 일 실시예에서 스케일링 인자 γ의 값은 0.3이고, 유효 폭의 값은 4.5이며, 파장 λ의 값은 5.6이다. θ가 4개의 방향 0°, 45°, 90°, 135°을 갖고 있다면, 비디오 프레임의 글로벌 질감 특성 O을 획득하기 위해 각 비디오 프레임의 4방향에서 생성된 가보르 행렬 Gθ에 대한 위치에 기초해서 최대값이 획득된다. 당업자라면, 글로벌 그레이스케일 특성을 획득하는 것에 대한 상기 설명은 단지 예시적인 것으로, 본 개시에 적용 가능한 글로벌 그레이스케일 특성을 획득하는 다른 기존의 혹은 향후 개발될 설명도 본 개시의 보호 범주에 포함되고, 여기에 참조로서 포함된다는 것을 이해할 것이다.
본 개시의 예시적인 실시예에 따른 타깃 획득 장치에서, 각 비디오 프레임의 글로벌 색상 특성을 추출하는 것은,
각 비디오 프레임의 3개의 컬러 채널에 따른 적색, 녹색, 청색 및 황색을 포함하는 4색의 수정된 기준 행렬 R, G, B 및 Y을 획득하는 것을 포함하며, 여기서 4색의 수정된 행렬 R, G, B 및 Y은 각 색에 대한 인간의 눈의 감도에 기초해서 설정되고, 그 식은 상세하게는 다음과 같고,
Figure pct00032
이는, 또한, 적색, 녹색, 청색 및 황색을 포함하는 4색의 기준 행렬 R, G, B 및 Y에 따른 적색-녹색 색상 특성 행렬 RG 및 청색-황색 색상 특성 행렬 BY을 획득하는 것을 포함하고, 여기서 RG=R-G이고, BY=B-Y이며,
적색-녹색 색상 특성 행렬과 청색-황색 색상 특성 행렬 사이의 차이의 절대값
Figure pct00033
을 비디오 프레임의 글로벌 색상 특성으로서 이용하는 것을 포함한다. 당업자라면, 글로벌 색상 특성을 획득하는 것에 대한 상기 설명은 단지 예시적인 것으로, 본 개시에 적용 가능한 글로벌 색상 특성을 획득하는 다른 기존의 혹은 향후 개발될 설명도 본 개시의 보호 범주에 포함되고, 여기에 참조로서 포함된다는 것을 이해할 것이다.
본 개시의 예시적인 실시예에 따른 타깃 획득 장치에서, 각 비디오 프레임의 글로벌 움직임 특성을 추출하는 것은,
각 비디오 프레임의 그레이스케일 특성 맵과 사전 설정된 프레임 이전의 비디오 프레임의 그레이스케일 특성 맵과의 차이의 절대값을 비디오 프레임의 글로벌 움직임 특성으로서 사용하는 것을 포함한다. 여기서 비디오 프레임의 글로벌 움직임 특성 M(t)의 식은 다음과 같다.
Figure pct00034
여기서, M(t)는 비디오 프레임의 글로벌 움직임 특성을 나타내고, 비디오 프레임의 시점은 시점 t이고, I(t)는 비디오 프레임의 그레이스케일 특성 맵을 나타내고, I(t-τ)는 사전 설정된 τ 프레임 이전의 비디오 프레임의 그레이스케일 특성 맵을 나타내며, 사전 설정된 τ 프레임 이전의 비디오 프레임의 시점이 t-τ이며, 여기서 τ은 움직임 프레임 변경량이고, I(t)는 τ 프레임의 변경 이후의 시점 t에서의 움직임 변이를 나타내고, τ의 값은 비디오 스트림에서 초당 비디오 프레임의 수에 따라서 결정된다. 초당 비디오 프레임의 수가 클수록 τ의 값은 커지고,일 실시예에서의 τ의 값은 1 내지 5가 될 수 있고, 예시적인 실시예에서 τ의 값은 3이 될 수 있다.
I(t) 및 I(t-τ)는 식
Figure pct00035
에 따라서 획득된다.
여기서 I는 비디오 프레임의 글로벌 그레이스케일 특성을 나타내고, r은 비디오 프레임의 적색 픽셀 채널을 나타내며, g는 비디오 프레임의 녹색 픽셀 채널을 나타내고, b는 비디오 프레임의 청색 픽셀 채널을 나타낸다. 당업자라면, 글로벌 움직임 특성을 획득하는 것에 대한 상기 설명은 단지 예시적인 것으로, 본 개시에 적용 가능한 글로벌 움직임 특성을 획득하는 다른 기존의 혹은 향후 개발될 설명도 본 개시의 보호 범주에 포함되고, 여기에 참조로서 포함된다는 것을 이해할 것이다.
본 개시의 예시적인 실시예에 따른 타깃 획득 장치에서, 제 1 장치(1)는 각 비디오 프레임의 글로벌 특성에 가중치를 부여하고, 멀티-스케일 주파수 영역 진폭 스펙트럼 필터링을 수행해서, 비디오 프레임의 각 스케일의 사전 예상 위치를 획득하는 것이다.
도 15에 도시된 바와 같이, 본 개시의 예시적인 실시예에 따른 타깃 획득 장치에서, 제 1 장치(1)는 다음을 포함한다.
각 비디오 프레임의 글로벌 특성에 가중치를 부여해서 행렬 다항식을 획득하는 제 1의 제 1 유닛(11). 여기서 각 비디오 프레임의 글로벌 그레이스케일 특성, 글로벌 질감 특성, 글로벌 색상 특성 및 글로벌 움직임 특성이 추출되면, 행렬 다항식은 다음과 같다.
Figure pct00036
n, m은 개별적인 행 및 열 좌표를 각각 나타내고, i, j 및 k는 행렬 다항식의 단위 행렬을 나타낸다.
행렬 다항식에 대해서 다항식 푸리에 변환을 수행해서 주파수 도메인 다항식 행렬을 획득하는 제 1의 제 2 유닛(12). 여기서 주파수 도메인 다항식 행렬은 다음과 같다.
Figure pct00037
이 식에서, u 및 v는 주파수 도메인의 2차원 좌표를 나타내고, M 및 N은 비디오 프레임의 길이 및 폭을 나타내며, μ는 허수 단위를 나타내며, 즉 μ2=-1이다.
주파수 도메인 다항식 행렬에 대해서 멀티-스케일 진폭 스펙트럼 필터링을 수행해서 각 스케일의 주파수 도메인을 획득하는 제 1의 제 3 유닛(13).
각 스케일의 주파수 도메인에 대해서 역 푸리에 변환을 수행해서 비디오 프레임의 각 스케일의 타깃 사전 예상 위치를 획득하는 제 1의 제 4 유닛(14). 여기서 타깃 사전 예상 위치
Figure pct00038
는 다음 식에 기초해서 획득된다.
Figure pct00039
당업자라면, 타깃 사전 예상 위치를 획득하는 것에 대한 상기 설명은 단지 예시적인 것으로, 본 개시에 적용 가능한 타깃 사전 예상 위치를 획득하는 다른 기존의 혹은 향후 개발될 설명도 본 개시의 보호 범주에 포함되고, 여기에 참조로서 포함된다는 것을 이해할 것이다.
도 16에 도시된 바와 같이, 본 개시의 예시적인 실시예에 따른 타깃 획득 장치에서, 제 1의 제 3 유닛(13)은 다음을 포함한다.
주파수 도메인 다항식 행렬에 따라서 대응하는 진폭 스펙트럼 A를 획득하는 제 1의 제 3의 제 1 유닛(131). 여기서 주파수 도메인 다항식 행렬의 진폭 스펙트럼은 다음과 같이 표현된다.
Figure pct00040
진폭 스펙트럼에 대해서 가우시언 저역 통과 필터를 이용해서 사전 설정된 멀티-스케일 진폭 스펙트럼 필터링을 수행해서, 각 스케일의 필터링된 진폭 스펙트럼을 획득하는 제 1의 제 3의 제 2 유닛(132). 가우시언 저역 통과 필터는 다음 형태를 갖는다.
Figure pct00041
이 식에서, H는 가우시언 저역 통과 필터 행렬이고, D는 푸리에 변환의 원점으로부터의 거리를 나타내고(거리는 유클리드 거리를 사용할 수 있다), σ는 가우시언 곡선 즉 스케일의 확대 각도를 나타내는데 이는 다음과 같이 표현될 수 있다.
Figure pct00042
. 여기서 다양한 크기의 타깃을 획득하는데 복수의 스케일이 사용되고,
각 스케일의 필터링된 진폭 스펙트럼은 다음 식에 따라서 획득된다.
Figure pct00043
이 식에서, AH는 각 스케일의 필터링된 진폭 스펙트럼을 나타낸다.
각 스케일의 위상 스펙트럼 및 필터링된 진폭 스펙트럼에 따라서 각 스케일의 필터링된 주파수 도메인을 획득하는 제 1의 제 3의 제 3 유닛(133). 각 스케일의 필터링된 주파수 도메인
Figure pct00044
은 다음과 같이 표현된다.
Figure pct00045
여기서 PH는 위상 스펙트럼을 나타낸다. 당업자라면, 주파수 도메인을 획득하는 것에 대한 상기 설명은 단지 예시적인 것으로, 본 개시에 적용 가능한 주파수 도메인을 획득하는 다른 기존의 혹은 향후 개발될 설명도 본 개시의 보호 범주에 포함되고, 여기에 참조로서 포함된다는 것을 이해할 것이다.
도 17에 도시된 바와 같이, 본 개시의 예시적인 실시예에 따른 타깃 획득 장치에서, 제 2 장치(2)는 다음을 포함한다.
각 비디오 프레임의 각 스케일의 각각의 타깃 사전 예상 위치에 따라서 대응하는 타깃 후보 영역을 획득하는 제 2의 제 1 유닛(21).
각각의 타깃 후보 영역 내의 픽셀의 수가 사전 설정된 수보다 작은지 여부를 판정하는 제 2의 제 2 유닛(22). 여기서 사전 설정된 수보다 작으면, 타깃 후보 영역을 필터링해서 제거하는데 예컨대, 픽셀의 수가 10 미만인 타깃 후보 영역을 필터링해서 제거하며, flag=0으로 설정하고, 즉 이후에 그 영역에 대한 신뢰도 레벨은 더 이상 계산하지 않는다.
타깃 후보 영역에 대해서, 필터링되어 제거되지 않는 각 타깃 후보 영역에 대해서 히스토그램을 작성하고, 이 히스토그램을, 대응하는 타깃 후보 영역의 신뢰도 레벨로서 이용해서 각 타깃 후보 영역의 정보 엔트로피를 계산하는 제 2의 제 3 유닛(23). 여기서 신뢰도 레벨은 다음 식에 따라서 획득될 수 있다.
Figure pct00046
여기서, h(n)은 히스토그램을 나타내고, p(·)는 확률 함수를 나타낸다. 당업자라면, 타깃 후보 영역 및 그 신뢰도 레벨을 획득하는 것에 대한 상기 설명은 단지 예시적인 것으로, 본 개시에 적용 가능한 타깃 후보 영역 및 그 신뢰도 레벨을 획득하는 다른 기존의 혹은 향후 개발될 설명도 본 개시의 보호 범주에 포함되고, 여기에 참조로서 포함된다는 것을 이해할 것이다.
본 개시의 예시적인 실시예에 따른 타깃 획득 장치에서, 제 2의 제 1 유닛(21)은 현재 비디오 프레임의 현재 스케일의 현재 타깃 사전 예상 위치로서 각 비디오 프레임의 각 스케일의 각 타깃 사전 예상 위치를 순차적으로 사용하고, 현재 비디오 프레임의 현재 스케일의 상기 현재 타깃 사전 예상 위치에 대해서 다음의 처리를 순차적으로 수행한다;
현재의 비디오 프레임의 현재의 스케일의 현재의 타깃 사전 예상 위치의 픽셀을 미방문(unvisited)이라고 라벨링하는 처리.
현재의 스케일의 현재의 타깃 사전 예상 위치를 스캐닝해서, 미방문이라고 라벨링되어 있으며 현재 타깃 사전 예상 위치 내의 사전 설정된 값보다 큰(가중된) 픽셀 값을 가진 픽셀을 중앙 픽셀로서 발견하고, 이 중앙 픽셀을 방문이라고 라벨링하는 처리. 예컨대, 사전 설정된 값은 0.2의 위치에 있을 수 있으며 중앙 픽셀 flag=1이라고 라벨링된다.
미방문이라고 라벨링되고, 중앙 픽셀의 이웃 도메인에서 사전 설정된 값보다 큰(가중된) 픽셀 값을 가진 다른 픽셀을 획득하고, 획득한 미방문이라고 라벨링되고, 사전 설정된 값보다 큰(가중된) 픽셀 값을 가진 다른 픽셀을 방문이라고 라벨링하는 처리.
현재의 타깃 사전 예상 위치에 대응하는 타깃 후보 영역을 초기화하고, 중앙 픽셀 및 미방문이라고 라벨링되고, 중앙 픽셀의 이웃 도메인에서 사전 설정된 값보다 큰(가중된) 픽셀 값을 가진 다른 픽셀을 타깃 후보 영역에 추가하는 처리. 예컨대, 다른 픽셀이 P(x, y)>0.2 및 flag=0을 만족하면, P(x, y)는 중요도 맵의 (x, y) 위치에 대응하는 값이고, 이웃하는 도메인은 8개의 이웃하는 도메인 즉 스트리트(street) 이웃하는 도메인(4개의 이웃하는 도메인)이며, 여기서 각각의 타깃 사전 예상 위치는 하나의 타깃 후보 영역에 대응한다. 당업자라면, 타깃 후보 영역을 획득하는 것에 대한 상기 설명은 단지 예시적인 것으로, 본 개시에 적용 가능한 타깃 후보 영역을 획득하는 다른 기존의 혹은 향후 개발될 설명도 본 개시의 보호 범주에 포함되고, 여기에 참조로서 포함된다는 것을 이해할 것이다.
도 18에 도시된 바와 같이, 본 개시의 예시적인 실시예에 따른 타깃 획득 장치에서, 제 3 장치(3)는 다음을 포함한다.
각 비디오 프레임의 모든 스케일의 타깃 후보 영역에 대해서 영역 트리 구조를 큰 스케일부터 작은 스케일의 순서로 설정하는 제 3의 제 1 유닛(31). 만약 제 2의 제 1 유닛(21)이 픽셀의 수가 사전 설정된 수보다 작은 타깃 후보 영역를 필터링해서 제거했다면, 여기서 타깃 후보 영역은 필터링되지 않은 타깃 후보 영역이다. 예컨대, 제 1의 제 3의 제 2 유닛(S132)은 8개 스케일과 같은 다수의 스케일을 가진 가우시언 저역 통과 필터를 사용한다. 따라서, 제 2의 제 3 유닛(23)에서 획득한 타깃 후보 영역도 8개의 스케일로 구성되고, 여기서 영역 트리 구조는 큰 스케일부터 작은 스케일의 순서로 설정되며, 이 구조는 멀티 자식 트리 및 싱글 자식 트리를 포함하는데 이는 도 9 및 10에 각각 도시되어 있다.
각 비디오 프레임의 영역 트리 구조 및 모든 타깃 후보 영역의 신뢰도 레벨에 따라서 각 비디오 프레임의 타깃 실제 영역을 획득하는 제 3의 제 2 유닛(32).
본 개시의 예시적인 실시예에 따른 타깃 획득 장치에서, 제 3의 제 2 유닛(32)은 각 비디오 프레임의 영역 트리 구조의 각각의 노드 영역을 큰 스케일부터 작은 스케일의 순서로 트래버스하고, 각 비디오 프레임의 타깃 실제 영역을 획득하도록 하기 상황에 따라서 반복 과정을 수행한다.
부모 노드 영역 및 자식 노드 영역이 현재 싱글 자식 트리이면(싱글 자식 트리 케이스), 신뢰도 레벨(conf)이 높은 노드 영역이 타깃 실제 영역으로서 직접 선택되고 반복은 종료된다.
부모 노드 영역 및 자식 노드 영역이 현재 멀티 자식 트리이고, 현재의 부모 노드 영역의 신뢰도 레벨이 2개의 자식 노드 영역 모두의 신뢰도 레벨보다 높다면(멀티 자식 트리 케이스 1), 부모 노드 영역이 타깃 실제 영역으로서 선택되고, 반복은 종료된다.
부모 노드 영역 및 자식 노드 영역이 현재 멀티 자식 트리이고, 현재의 2개의 자식 노드 영역의 신뢰도 레벨이 모두 현재의 부모 노드 영역의 신뢰도 레벨보다 높다면(멀티 자식 트리 케이스 2), 2개의 자식 노드 영역이 타깃 실제 영역으로서 선택되고, 여기서 이 동작 이후에 나머지 자식 노드 영역을 트래버스하는 동안에, 이 반복 과정을 싱글 자식 트리 케이스나 멀티 자식 트리 케이스 1이 발생할 때까지, 멀티 자식 트리 케이스 2 및 멀티 자식 트리 케이스 3에 따라서 낮은 스케일의 노드 영역에 대해서 되풀이해서 계속할 필요가 있다.
부모 노드 영역 및 자식 노드 영역이 현재 멀티 자식 트리이고, 부모 노드 영역의 신뢰도 레벨이 2개의 자식 노드 영역 중 하나의 신뢰도 레벨보다 높고, 2개의 자식 노드 영역 중 다른 하나의 신뢰도 레벨보다 낮으면(멀티 자식 트리 케이스 2), 신뢰도 레벨이 더 높은 자식 노드 영역이 타깃 실제 영역으로서 선택된다. 이 단계 이후에 나머지 자식 노드 영역을 트래버스하는 동안에, 이 반복 과정을 싱글 자식 트리 케이스나 멀티 자식 트리 케이스 1이 발생할 때까지, 멀티 자식 트리 케이스 2 및 멀티 자식 트리 케이스 3에 따라서 낮은 스케일의 노드 영역에 대해서 되풀이해서 계속할 필요가 있다. 당업자라면, 타깃 실제 영역을 획득하는 것에 대한 상기 설명은 단지 예시적인 것으로, 본 개시에 적용 가능한 타깃 실제 영역을 획득하는 다른 기존의 혹은 향후 개발될 설명도 본 개시의 보호 범주에 포함되고, 여기에 참조로서 포함된다는 것을 이해할 것이다.
본 개시는 매틀랩, C++ 호출 OpenCV 및 다른 방식을 이용해서 구현될 수 있다.
이하, 본 개시의 타깃 획득 방법 및 장치에 대해서 특정 응용예를 참조하면서 더 설명한다.
특정 응용예에서, 비디오로부터 다수의 타깃을 획득하기 위해서, 동일한 비디오로부터 복수의 비디오 프레임이 추출되고, 각 비디오 프레임에 대해서 크기 정규화가 수행되며, 이후에 각 비디오 프레임의 정규화된 글로벌 특성이 추출된다. 이 글로벌 특성은 글로벌 그레이스케일 특성, 글로벌 질감 특성, 글로벌 색상 특성 및 글로벌 움직임 특성을 포함한다. 이후, 각 비디오 프레임의 타깃 사전 예상 위치를 수집해서 대응하는 타깃 후보 영역을 획득해서, 각 비디오 프레임의 하나 이상의 타깃을 빠르고 효율적으로 획득하며, 종래의 기술의 시나리오 및 타깃의 타입에 의존하는 문제를 해결한다. 예컨대, 가우시안 혼합 모델과 같은 기존의 배경 모델링 방법은 여행 기록 비디오에서 사용될 수 없다. 나아가, 인접한 시점에 있는, 비디오 프레임에서 동일한 타깃 실제 영역의 중앙 위치들 사이의 거리가 사전 설정된 임계값보다 큰 지 여부가 후속해서 계산되고, 임계값보다 크다면, 2개의 인접 시점 중 후자에 있는 비디오 프레임 내의 타깃 실제 영역은 무효한 것이며, 이로써, 비디오에서 유효한 타깃 실제 영역만을 더 정확하게 추출하는 것이 용이하게 되며, 비디오 분류를 위한 기본 특성을 제공한다. 예컨대, 비디오의 타깃의 수에 기초해서, 은행의 ATM의 감시 비디오는 철도역의 감시 비디오와 구별되고, 타깃의 움직임의 궤적에 기초해서 여행 기록 비디오는 은행의 감시 비디오와 구별된다.
이러한 관점에서, 본 개시는 각 비디오 프레임의 글로벌 특성에 따라서, 비디오 프레임의 각각의 스케일의 타깃 사전 예상 위치를 획득하고, 각 비디오 프레임의 타깃 사전 예상 위치를 수집해서 대응하는 타깃 후보 영역을 획득하며, 타깃 후보 영역의 신뢰도 레벨과 대응하는 스케일 처리를 조합해서 각 비디오 프레임 내의 타깃 후보 영역 모두에 따라서 비디오 프레임 내의 타깃 실제 영역을 결정하고, 이로써 하나 이상의 타깃을 빠르고 효율적으로 획득할 수 있고, 특히 다수의 타깃을 정확하게 구별해서 획득할 수 있다.
또한, 본 개시는 2개의 인접 시점에 있는 비디오 프레임들 내의 동일한 타깃 실제 영역의 중앙 위치들 사이의 거리가 사전 설정된 임계값 이상인지 여부를 계산하고, 임계값 이상이면, 2개의 인접 시점 중 후자에 있는 비디오 프레임 내의 타깃 실제 영역은 무효한 것이라고 판정하고, 이로써 비디오에서 타깃의 후속 추출에서의 정확성을 더 높일 수 있으며, 비디오 분류를 위한 기본 특성을 제공하는 것이 가능해진다.
당업자라면 본 개시의 사상으로부터 벗어남없이 본 개시에 대한 많은 수정 및 변경을 행할 수 있다는 것이 자명하다. 본 개시에 대한 수정 및 변경이 본 개시의 청구항의 범주 내에 들어간다면, 본 개시는 이들 수정 및 변경을 포함하는 것이다.
본 개시는 하드웨어, 소프트웨어 및/또는 이들의 조합으로 구현될 수 있으며, 예컨대, 이들은 ASIC, 다목적 컴퓨터 혹은 임의의 다른 유사한 하드웨어 장치를 이용해서 구현될 수 있다는 점에 주의한다. 예시적인 실시예에서, 본 개시의 소프트웨어 프로그램은 프로세서를 통해서 상술한 단계 혹은 기능을 수행하도록 실행될 수 있다. 유사하게, 본 개시의 소프트웨어 프로그램(관련 데이터 구조를 포함)은 예컨대, RAM 메모리, 자기 혹은 광학식 드라이브나 혹은 플로피 디스크, 및 유사한 장치와 같은 컴퓨터 판독 가능 매체에 저장될 수 있다. 나아가, 본 개시의 일부 단계 혹은 기능은 예컨대, 각 단계 혹은 기능을 수행하는 프로세서와 함께 동작하는 회로와 같은 하드웨어를 사용해서 구현될 수 있다.
나아가, 본 개시의 일부는 예컨대, 컴퓨터-실행 가능 인스트럭션과 같은 컴퓨터 프로그램 제품으로서 구현될 수 있고, 컴퓨터에 의해 실행될 때, 본 개시의 방법 및/또는 기술적인 해법이 컴퓨터의 동작을 통해서 호출 혹은 제공된다. 본 개시의 방법을 호출하는 컴퓨터-실행 가능 인스트럭션은 고정형 혹은 착탈형 기록 매체에 저장될 수도 있고, 및/또는 브로드캐스트나 다른 신호 전달 매체로 데이터 스트림을 통해서 전송될 수도 있으며, 및/또는프로그램 인스트럭션에 따라서 동작하는 컴퓨터 장치의 동작 저장부에 저장될 수도 있다. 여기서, 본 개시의 일 예시적인 실시예에 따라서, 장치는 컴퓨터-실행 가능 인스트럭션을 저장하기 위한 컴퓨터 판독 가능 저장부 및 컴퓨터-실행 가능 인스트럭션을 실행하는 프로세서를 포함한다. 컴퓨터-실행 가능 인스트럭션이 프로세서에 의해 실행될 때, 이 장치는 본 개시에 따른 상술한 다수의 실시예에 기초한 방법 및/또는 기술적인 해법을 동작시키도록 트리거된다.
당업자에게는, 본 개시가 상술한 예시적인 실시예의 세부 사항으로 한정되는 것은 아니며, 본 개시는 그 사상 혹은 기본적인 특성으로부터 벗어남없이 다른 특정 형태로 구현될 수 있다는 것이 자명할 것이다. 따라서, 어느 견지에서 보더라도, 이 실시예는 예시적인 것으로, 본 개시의의 범주는 상기 설명이 아닌 첨부된 청구항에 의해서 제공되는데, 이는 청구항의 등가물의 사상 및 범주 내에 들어가는 모든 변형이 본 개시 내에 들어가게 하기 위함이다. 청구항의 임의의 참조 번호는 그것이 포함된 청구항을 한정하는 것이 아니다. 나아가, "포함한다"는 용어는 다른 유닛 혹은 동작을 배제하는 것이 아니며, 단일인 것이 복수 존재를 배제하는 것은 아니라는 점이 자명하다. 장치 청구항 내의 다수의 유닛 혹은 소자는 소프트웨어 혹은 하드웨어를 통해서 하나의 유닛 혹은 소자에 의해 구현될 수도 있다. 제 1 및 제 2 라는 용어를 사용하는 것은, 특정한 순서가 아니며 명칭을 나타낸 것이다.

Claims (20)

  1. 타깃 획득 방법으로서,
    각각의 비디오 프레임의 글로벌 특성(global feature)에 따라서, 복수의 비디오 프레임의 각각의 비디오 프레임 내의 복수의 스케일의 타깃 사전 예상 위치를 획득하는 단계와,
    상기 각각의 비디오 프레임 내의 타깃 사전 예상 위치를 수집해서(cluster) 하나 이상의 타깃 후보 영역을 획득하는 단계와,
    상기 하나 이상의 타깃 후보 영역의 신뢰도 레벨 및 대응하는 스케일 처리와 조합해서, 각각의 비디오 프레임 내의 상기 하나 이상의 타깃 후보 영역 모두에 따라서, 각각의 비디오 프레임 내의 타깃 실제 영역(target actual region)을 판정하는 단계
    를 포함하는 타깃 획득 방법.
  2. 제 1 항에 있어서,
    상기 하나 이상의 타깃 후보 영역의 신뢰도 레벨 및 대응하는 스케일 처리와 조합해서, 각각의 비디오 프레임 내의 상기 하나 이상의 타깃 후보 영역 모두에 따라서, 각각의 비디오 프레임 내의 상기 타깃 실제 영역을 판정하는 단계 이후에,
    상기 복수의 비디오 프레임의 2개의 인접 시점에 있는 2개의 비디오 프레임들 내의 동일한 타깃 실제 영역을 비교해서 상기 타깃 실제 영역이 무효한지 판정하는 단계
    를 더 포함하는 타깃 획득 방법.
  3. 제 1 항에 있어서,
    각각의 비디오 프레임의 상기 글로벌 특성에 따라서, 상기 복수의 비디오 프레임의 각각의 비디오 프레임 내의 복수의 스케일의 타깃 사전 예상 위치를 획득하는 단계 이전에,
    각각의 비디오 프레임에 대해서 크기 정규화를 수행하는 단계
    를 더 포함하는 타깃 획득 방법.
  4. 제 1 항에 있어서,
    상기 글로벌 특성은 글로벌 그레이스케일 특성과, 글로벌 질감 특성과, 글로벌 색상 특성과, 글로벌 움직임 특성 중 하나 이상을 포함하는
    타깃 획득 방법.
  5. 제 4 항에 있어서,
    각각의 비디오 프레임의 상기 글로벌 질감 특성은 가보르 행렬(Gabor matrix) 혹은 캐니 연산자(Canny operator)의 에지 검출 알고리즘을 이용해서 추출되는
    타깃 획득 방법.
  6. 제 4 항에 있어서,
    각각의 비디오 프레임의 상기 글로벌 색상 특성을 추출하는 단계를 더 포함하고,
    상기 추출하는 단계는,
    각각의 비디오 프레임의 3개의 컬러 채널에 따른 적색, 녹색, 청색 및 황색을 포함하는 4색의 수정된 기준 행렬을 획득하는 단계와,
    상기 4색의 상기 기준 행렬에 따른 적색-녹색 색상 특성 행렬 및 청색-황색 색상 특성 행렬을 획득하는 단계와,
    상기 적색-녹색 색상 특성 행렬과 상기 청색-황색 색상 특성 행렬 사이의 차이의 절대값을 각각의 비디오 프레임의 글로벌 색상 특성으로서 이용하는 단계
    를 포함하는
    타깃 획득 방법.
  7. 제 4 항에 있어서,
    각각의 비디오 프레임의 상기 글로벌 움직임 특성을 추출하는 단계를 더 포함하고,
    상기 추출하는 단계는, 각각의 비디오 프레임의 그레이스케일 특성 맵과 대응하는 이전 비디오 프레임의 그레이스케일 특성 맵 사이의 차이의 절대값을, 상기 비디오 프레임의 상기 글로벌 움직임 특성으로서 이용하는 단계를 포함하는,
    타깃 획득 방법.
  8. 제 1 항에 있어서,
    상기 각각의 비디오 프레임의 글로벌 특성에 따라서 상기 복수의 비디오 프레임의 각각의 비디오 프레임 내의 복수의 스케일의 타깃 사전 예상 위치를 획득하는 단계는,
    상기 각각의 비디오 프레임의 글로벌 특성에 가중치를 부여하고, 멀티-스케일 주파수 영역 진폭 스펙트럼 필터링을 수행해서, 각각의 비디오 프레임의 각각의 스케일의 상기 사전 예상 위치를 획득하는 단계
    를 포함하는
    타깃 획득 방법.
  9. 제 8 항에 있어서,
    상기 각각의 비디오 프레임의 글로벌 특성에 가중치를 부여하고, 멀티-스케일 주파수 영역 진폭 스펙트럼 필터링을 수행해서, 각각의 비디오 프레임의 각각의 스케일의 상기 사전 예상 위치를 획득하는 단계는,
    상기 각각의 비디오 프레임의 글로벌 특성에 가중치를 부여해서 행렬 다항식(a matrix polynomial)을 획득하는 단계와,
    상기 행렬 다항식에 대해서 다항식 푸리에 변환을 수행해서 주파수 도메인 다항식 행렬을 획득하는 단계와,
    상기 주파수 도메인 다항식 행렬에 대해서 멀티-스케일 진폭 스펙트럼 필터링을 수행해서 각각의 스케일의 주파수 도메인을 획득하는 단계와,
    상기 각각의 스케일의 주파수 도메인에 대해서 역 푸리에 변환을 수행해서 각각의 비디오 프레임의 각각의 스케일의 상기 타깃 사전 예상 위치를 획득하는 단계
    를 포함하는
    타깃 획득 방법.
  10. 제 9 항에 있어서,
    상기 주파수 도메인 다항식 행렬에 대해서 상기 멀티-스케일 진폭 스펙트럼 필터링을 수행해서 상기 각각의 스케일의 주파수 도메인을 획득하는 단계는,
    상기 주파수 도메인 다항식 행렬에 따라서 대응하는 진폭 스펙트럼을 획득하는 단계와,
    상기 진폭 스펙트럼에 대해서 가우시언 저역 통과 필터를 이용해서 사전 설정된 멀티-스케일 진폭 스펙트럼 필터링을 수행해서, 각각의 스케일의 필터링된 진폭 스펙트럼을 획득하는 단계와,
    각각의 스케일의 위상 스펙트럼 및 상기 필터링된 진폭 스펙트럼에 따라서 각각의 스케일의 필터링된 주파수 도메인을 획득하는 단계
    를 포함하는
    타깃 획득 방법.
  11. 제 1 항에 있어서,
    상기 각각의 비디오 프레임 내의 타깃 사전 예상 위치를 수집해서 상기 하나 이상의 타깃 후보 영역을 획득하는 단계는,
    각각의 비디오 프레임의 각각의 스케일의 각각의 타깃 사전 예상 위치에 따라서 대응하는 타깃 후보 영역을 획득하는 단계와,
    제각기의 타깃 후보 영역 내의 픽셀의 수가 사전 설정된 수보다 작은지 여부를 판정하는 단계와,
    상기 제각기의 타깃 후보 영역을 필터링해서 제거하는 단계와,
    필터링되어 제거되지 않은 각각의 타깃 후보 영역에 대해서 히스토그램을 작성하는 단계와,
    상기 히스토그램을, 대응하는 타깃 후보 영역의 신뢰도 레벨로서 이용해서, 필터링되어 제거되지 않은 각각의 타깃 후보 영역의 정보 엔트로피를 계산하는 단계
    를 포함하는
    타깃 획득 방법.
  12. 제 11 항에 있어서,
    상기 각각의 비디오 프레임의 각각의 스케일의 각각의 타깃 사전 예상 위치에 따라서 상기 대응하는 타깃 후보 영역을 획득하는 단계는,
    현재 비디오 프레임의 현재 스케일의 현재 타깃 사전 예상 위치로서, 각각의 비디오 프레임의 각각의 스케일의 각각의 타깃 사전 예상 위치를 순차적으로 사용하는 단계와,
    상기 현재 비디오 프레임의 상기 현재 스케일의 상기 현재 타깃 사전 예상 위치에 대해서 다음 처리를 순차적으로 수행하는 단계
    를 포함하고, 상기 다음 처리는,
    현재의 비디오 프레임의 현재의 스케일의 상기 현재의 타깃 사전 예상 위치의 픽셀을, 미방문(unvisited)이라고 라벨링하는 처리와,
    상기 현재의 스케일의 상기 현재의 타깃 사전 예상 위치를 스캐닝하는 처리와,
    미방문이라고 라벨링되어 있으며 상기 현재 타깃 사전 예상 위치 내의 사전 설정된 값보다 큰 픽셀 값을 가진 픽셀을 중앙 픽셀로서 발견하는 단계와,
    상기 중앙 픽셀을 방문(visited)이라고 라벨링하는 처리와,
    미방문이라고 라벨링되고 상기 중앙 픽셀의 이웃하는 도메인 내의 상기 사전 설정된 값보다 큰 픽셀값을 가진 다른 픽셀을 획득하는 처리와,
    상기 획득한, 상기 미방문이라고 라벨링되고 사전 설정된 값보다 큰 픽셀값을 가진 다른 픽셀을, 방문이라고 라벨링하는 처리와,
    상기 현재의 타깃 사전 예상 위치에 대응하는 타깃 후보 영역을 초기화하는 처리와,
    상기 중앙 픽셀 및 미방문이라고 라벨링되고 상기 이웃하는 도메인 내의 상기 사전 설정된 값보다 큰 픽셀값을 가진 다른 픽셀을 상기 타깃 후보 영역에 추가하는 처리
    를 포함하는
    타깃 획득 방법.
  13. 제 1 항에 있어서,
    상기 하나 이상의 타깃 후보 영역의 신뢰도 레벨 및 대응하는 스케일 처리와 조합해서, 각각의 비디오 프레임 내의 상기 하나 이상의 타깃 후보 영역 모두에 따라서, 각각의 비디오 프레임 내의 상기 타깃 실제 영역을 판정하는 단계는,
    각각의 비디오 프레임의 모든 스케일의 상기 하나 이상의 타깃 후보 영역에 대해서 영역 트리 구조를 큰 스케일부터 작은 스케일의 순서로 설정하는 단계와,
    각각의 비디오 프레임의 상기 영역 트리 구조 및 상기 하나 이상의 타깃 후보 영역의 상기 신뢰도 레벨에 따라서 각각의 비디오 프레임의 상기 타깃 실제 영역을 획득하는 단계
    를 포함하는
    타깃 획득 방법.
  14. 제 13 항에 있어서,
    상기 각각의 비디오 프레임의 상기 영역 트리 구조 및 상기 하나 이상의 타깃 후보 영역의 상기 신뢰도 레벨에 따라서 각각의 비디오 프레임의 상기 타깃 실제 영역을 획득하는 단계는,
    각각의 비디오 프레임의 상기 영역 트리 구조의 각각의 노드 영역을 큰 스케일부터 작은 스케일의 순서로 트래버스하는 단계와,
    각각의 비디오 프레임의 상기 타깃 실제 영역을 획득하도록 반복 과정을 수행하는 단계
    를 포함하는
    타깃 획득 방법.
  15. 제 14 항에 있어서,
    상기 각각의 비디오 프레임의 상기 타깃 실제 영역을 획득하도록 반복 과정을 수행하는 단계는,
    부모 노드 영역 및 자식 노드 영역이 싱글 자식 트리라고 판정하는 단계와,
    신뢰도 레벨이 높은 노드 영역을 상기 타깃 실제 영역으로서 선택하는 단계와,
    상기 반복 과정을 종료하는 단계
    를 포함하는
    타깃 획득 방법.
  16. 제 14 항에 있어서,
    상기 각각의 비디오 프레임의 상기 타깃 실제 영역을 획득하도록 반복 과정을 수행하는 단계는,
    부모 노드 영역 및 2개의 자식 노드 영역이 멀티 자식 트리이고, 상기 부모 노드 영역의 신뢰도 레벨이 상기 2개의 자식 노드 영역 모두의 신뢰도 레벨보다 높다고 판정하는 단계와,
    상기 부모 노드 영역을 상기 타깃 실제 영역으로서 선택하는 단계와,
    상기 반복 과정을 종료하는 단계
    를 포함하는
    타깃 획득 방법.
  17. 제 14 항에 있어서,
    상기 각각의 비디오 프레임의 상기 타깃 실제 영역을 획득하도록 반복 과정을 수행하는 단계는,
    부모 노드 영역 및 2개의 자식 노드 영역이 멀티 자식 트리이고, 상기 2개의 자식 노드 영역의 신뢰도 레벨이 상기 부모 노드 영역의 신뢰도 레벨보다 높다고 판정하는 단계와,
    상기 2개의 자식 노드 영역을 상기 타깃 실제 영역으로서 선택하는 단계
    를 포함하는
    타깃 획득 방법.
  18. 제 14 항에 있어서,
    상기 각각의 비디오 프레임의 상기 타깃 실제 영역을 획득하도록 반복 과정을 수행하는 단계는,
    부모 노드 영역 및 2개의 자식 노드 영역이 멀티 자식 트리이고, 상기 부모 노드 영역의 신뢰도 레벨이 상기 2개의 자식 노드 영역 중 하나의 신뢰도 레벨보다는 높고 상기 2개의 자식 노드 영역 중 다른 하나의 신뢰도 레벨보다는 낮다고 판정하는 단계와,
    상기 신뢰도 레벨이 더 높은 자식 노드 영역을 상기 타깃 실제 영역으로서 선택하는 단계
    를 포함하는
    타깃 획득 방법.
  19. 타깃 획득 장치로서,
    각각의 비디오 프레임의 글로벌 특성에 따라서, 복수의 비디오 프레임의 각각의 비디오 프레임 내의 복수의 스케일의 타깃 사전 예상 위치를 획득하는 제 1 장치와,
    상기 각각의 비디오 프레임 내의 타깃 사전 예상 위치를 수집해서 하나 이상의 타깃 후보 영역을 획득하는 제 2 장치와,
    상기 하나 이상의 타깃 후보 영역의 신뢰도 레벨 및 대응하는 스케일 처리와 조합해서, 각각의 비디오 프레임 내의 상기 하나 이상의 타깃 후보 영역 모두에 따라서, 각각의 비디오 프레임 내의 타깃 실제 영역을 판정하는 제 3 장치
    를 포함하는 타깃 획득 장치.
  20. 하나 이상의 프로세서에 의해서 실행 가능한 컴퓨터 실행 가능 인스트럭션이 저장된 하나 이상의 메모리로서,
    상기 컴퓨터 실행 가능 인스트럭션은 상기 하나 이상의 프로세서로 하여금,
    각각의 비디오 프레임의 글로벌 특성에 따라서, 복수의 비디오 프레임의 각각의 비디오 프레임 내의 복수의 스케일의 타깃 사전 예상 위치를 획득하게 하는 동작과,
    상기 각각의 비디오 프레임 내의 타깃 사전 예상 위치를 수집해서 하나 이상의 타깃 후보 영역을 획득하게 하는 동작과,
    상기 하나 이상의 타깃 후보 영역의 신뢰도 레벨 및 대응하는 스케일 처리와 조합해서, 각각의 비디오 프레임 내의 상기 하나 이상의 타깃 후보 영역 모두에 따라서, 각각의 비디오 프레임 내의 타깃 실제 영역을 판정하게 하는 동작
    을 수행하게 하는,
    메모리.
KR1020177021351A 2015-02-04 2016-02-03 타깃 획득 방법 및 장치 KR102507941B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201510059261.5 2015-02-04
CN201510059261.5A CN105989367B (zh) 2015-02-04 2015-02-04 目标获取方法及设备
PCT/US2016/016462 WO2016126885A1 (en) 2015-02-04 2016-02-03 Method and apparatus for target acquisition

Publications (2)

Publication Number Publication Date
KR20170110609A true KR20170110609A (ko) 2017-10-11
KR102507941B1 KR102507941B1 (ko) 2023-03-10

Family

ID=56553134

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020177021351A KR102507941B1 (ko) 2015-02-04 2016-02-03 타깃 획득 방법 및 장치

Country Status (7)

Country Link
US (1) US9990546B2 (ko)
EP (1) EP3254236A4 (ko)
JP (1) JP6723247B2 (ko)
KR (1) KR102507941B1 (ko)
CN (1) CN105989367B (ko)
TW (1) TWI676963B (ko)
WO (1) WO2016126885A1 (ko)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105989367B (zh) * 2015-02-04 2019-06-28 阿里巴巴集团控股有限公司 目标获取方法及设备
US10339410B1 (en) * 2016-01-13 2019-07-02 Snap Inc. Color extraction of a video stream
US10791304B2 (en) * 2016-08-05 2020-09-29 Wisconsin Alumni Research Foundation Apparatus for augmenting human vision
CN107705586B (zh) * 2016-08-08 2022-05-10 阿里巴巴集团控股有限公司 道路交叉口的车流控制方法以及装置
CN108073857B (zh) 2016-11-14 2024-02-27 北京三星通信技术研究有限公司 动态视觉传感器dvs事件处理的方法及装置
CN107341798B (zh) * 2017-07-06 2019-12-03 西安电子科技大学 基于全局-局部SPP Net的高分辨SAR图像变化检测方法
CN110445465A (zh) * 2017-12-22 2019-11-12 晶科电力科技股份有限公司 一种光伏电站中热斑定位方法
US11669724B2 (en) 2018-05-17 2023-06-06 Raytheon Company Machine learning using informed pseudolabels
CN109118516A (zh) * 2018-07-13 2019-01-01 高新兴科技集团股份有限公司 一种目标从运动到静止的跟踪方法及装置
CN109325968A (zh) * 2018-09-27 2019-02-12 东南大学 一种基于谱滤波的目标跟踪方法
CN109597431B (zh) * 2018-11-05 2020-08-04 视联动力信息技术股份有限公司 一种目标跟踪的方法以及装置
CN111259919B (zh) * 2018-11-30 2024-01-23 杭州海康威视数字技术股份有限公司 一种视频分类方法、装置及设备、存储介质
CN109816700B (zh) * 2019-01-11 2023-02-24 佰路得信息技术(上海)有限公司 一种基于目标识别的信息统计方法
CN110197126A (zh) * 2019-05-06 2019-09-03 深圳岚锋创视网络科技有限公司 一种目标追踪方法、装置及便携式终端
CN111684491A (zh) * 2019-05-31 2020-09-18 深圳市大疆创新科技有限公司 目标跟踪方法、目标跟踪装置和无人机
US11068747B2 (en) * 2019-09-27 2021-07-20 Raytheon Company Computer architecture for object detection using point-wise labels
CN110837789B (zh) * 2019-10-31 2023-01-20 北京奇艺世纪科技有限公司 一种检测物体的方法、装置、电子设备及介质
CN112749599A (zh) * 2019-10-31 2021-05-04 北京金山云网络技术有限公司 图像增强方法、装置和服务器
CN110969115B (zh) * 2019-11-28 2023-04-07 深圳市商汤科技有限公司 行人事件的检测方法及装置、电子设备和存储介质
CN113014955B (zh) * 2019-12-19 2022-11-15 北京百度网讯科技有限公司 视频帧处理方法、装置、电子设备和计算机可读存储介质
CN111028346B (zh) * 2019-12-23 2023-10-10 北京奇艺世纪科技有限公司 一种视频对象的重建方法和装置
US11676391B2 (en) 2020-04-16 2023-06-13 Raytheon Company Robust correlation of vehicle extents and locations when given noisy detections and limited field-of-view image frames
CN112137591B (zh) * 2020-10-12 2021-07-23 平安科技(深圳)有限公司 基于视频流的目标物位置检测方法、装置、设备及介质
CN112235650A (zh) * 2020-10-19 2021-01-15 广州酷狗计算机科技有限公司 视频处理方法、装置、终端及存储介质
US11562184B2 (en) 2021-02-22 2023-01-24 Raytheon Company Image-based vehicle classification
CN113705415B (zh) * 2021-08-23 2023-10-27 中国电子科技集团公司第十五研究所 基于雷达情报的空情目标特征提取方法及装置
CN113762114A (zh) * 2021-08-27 2021-12-07 四川智胜慧旅科技有限公司 一种基于户外视频识别的人员寻找方法及系统
CN114898175B (zh) * 2022-04-29 2023-03-28 北京九章云极科技有限公司 目标检测方法、装置及相关设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6263088B1 (en) * 1997-06-19 2001-07-17 Ncr Corporation System and method for tracking movement of objects in a scene
CN103400129A (zh) * 2013-07-22 2013-11-20 中国科学院光电技术研究所 一种基于频域显著性的目标跟踪方法

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5631697A (en) 1991-11-27 1997-05-20 Hitachi, Ltd. Video camera capable of automatic target tracking
KR100327103B1 (ko) 1998-06-03 2002-09-17 한국전자통신연구원 사용자의조력및물체추적에의한영상객체분할방법
US6721454B1 (en) * 1998-10-09 2004-04-13 Sharp Laboratories Of America, Inc. Method for automatic extraction of semantically significant events from video
US7072398B2 (en) 2000-12-06 2006-07-04 Kai-Kuang Ma System and method for motion vector generation and analysis of digital video clips
US6574353B1 (en) 2000-02-08 2003-06-03 University Of Washington Video object tracking using a hierarchy of deformable templates
US20020154833A1 (en) * 2001-03-08 2002-10-24 Christof Koch Computation of intrinsic perceptual saliency in visual environments, and applications
US20070092110A1 (en) 2004-11-08 2007-04-26 Li-Qun Xu Object tracking within video images
US7796780B2 (en) 2005-06-24 2010-09-14 Objectvideo, Inc. Target detection and tracking from overhead video streams
CN101231755B (zh) * 2007-01-25 2013-03-06 上海遥薇(集团)有限公司 运动目标跟踪及数量统计方法
JP2008233343A (ja) * 2007-03-19 2008-10-02 Advanced Mask Inspection Technology Kk 試料検査装置、補正画像生成方法及びプログラム
US8374388B2 (en) 2007-12-28 2013-02-12 Rustam Stolkin Real-time tracking of non-rigid objects in image sequences for which the background may be changing
TWI366140B (en) * 2008-06-11 2012-06-11 Vatics Inc Method for tracking multiple objects with spatial-color statistical model
US8085982B1 (en) 2008-06-20 2011-12-27 Google Inc. Object tracking in video with visual constraints
TWI382762B (zh) * 2008-11-17 2013-01-11 Ind Tech Res Inst 移動物體的追蹤方法
GB0915200D0 (en) * 2009-09-01 2009-10-07 Ucl Business Plc Method for re-localising sites in images
US20130089301A1 (en) * 2011-10-06 2013-04-11 Chi-cheng Ju Method and apparatus for processing video frames image with image registration information involved therein
WO2013073622A1 (ja) * 2011-11-18 2013-05-23 日本電気株式会社 局所特徴量抽出装置、局所特徴量抽出方法、及びプログラム
US9111135B2 (en) * 2012-06-25 2015-08-18 Aquifi, Inc. Systems and methods for tracking human hands using parts based template matching using corresponding pixels in bounded regions of a sequence of frames that are a specified distance interval from a reference camera
US9336302B1 (en) * 2012-07-20 2016-05-10 Zuci Realty Llc Insight and algorithmic clustering for automated synthesis
CN103413120B (zh) * 2013-07-25 2016-07-20 华南农业大学 基于物体整体性和局部性识别的跟踪方法
CN103514276B (zh) * 2013-09-22 2016-06-29 西安交通大学 基于中心估计的图形目标检索定位方法
US9767385B2 (en) * 2014-08-12 2017-09-19 Siemens Healthcare Gmbh Multi-layer aggregation for object detection
CN105989367B (zh) * 2015-02-04 2019-06-28 阿里巴巴集团控股有限公司 目标获取方法及设备
WO2016207875A1 (en) * 2015-06-22 2016-12-29 Photomyne Ltd. System and method for detecting objects in an image

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6263088B1 (en) * 1997-06-19 2001-07-17 Ncr Corporation System and method for tracking movement of objects in a scene
CN103400129A (zh) * 2013-07-22 2013-11-20 中国科学院光电技术研究所 一种基于频域显著性的目标跟踪方法

Also Published As

Publication number Publication date
WO2016126885A1 (en) 2016-08-11
US9990546B2 (en) 2018-06-05
CN105989367A (zh) 2016-10-05
JP6723247B2 (ja) 2020-07-15
TWI676963B (zh) 2019-11-11
KR102507941B1 (ko) 2023-03-10
CN105989367B (zh) 2019-06-28
TW201629904A (zh) 2016-08-16
EP3254236A1 (en) 2017-12-13
JP2018509678A (ja) 2018-04-05
EP3254236A4 (en) 2018-10-03
US20160224833A1 (en) 2016-08-04

Similar Documents

Publication Publication Date Title
KR102507941B1 (ko) 타깃 획득 방법 및 장치
Ma et al. Bayesian loss for crowd count estimation with point supervision
CN108242062B (zh) 基于深度特征流的目标跟踪方法、系统、终端及介质
JP7430277B2 (ja) 障害物検出方法及び装置、コンピュータデバイス、並びにコンピュータプログラム
US11195038B2 (en) Device and a method for extracting dynamic information on a scene using a convolutional neural network
CN113506317B (zh) 一种基于Mask R-CNN和表观特征融合的多目标跟踪方法
CN111666921A (zh) 车辆控制方法、装置、计算机设备和计算机可读存储介质
WO2021018106A1 (zh) 行人检测方法、装置、计算机可读存储介质和芯片
CN107944403B (zh) 一种图像中的行人属性检测方法及装置
CN112329702B (zh) 一种快速人脸密度预测和人脸检测方法、装置、电子设备及存储介质
Wang et al. Object counting in video surveillance using multi-scale density map regression
Su et al. Violence detection using 3D convolutional neural networks
EP4332910A1 (en) Behavior detection method, electronic device, and computer readable storage medium
CN111753775A (zh) 鱼的生长评估方法、装置、设备及存储介质
JP7165353B2 (ja) 画像特徴量出力装置、画像認識装置、画像特徴量出力プログラム、及び画像認識プログラム
Nag et al. ARCN: a real-time attention-based network for crowd counting from drone images
CN115953431A (zh) 面向无人机航拍视频的多目标跟踪方法与系统
CN112395990B (zh) 多帧红外图像弱小目标检测方法、装置、设备和存储介质
CN110796684B (zh) 目标跟踪方法以及相关装置
Bai et al. Motion-guided non-local spatial-temporal network for video crowd counting
CN114170267A (zh) 目标跟踪方法、装置、设备及计算机可读存储介质
Akhtar et al. DenseResSegnet: A Dense Residual Segnet for Road Detection Using Remote Sensing Images
Zhang et al. Deep encoder-decoder network based on the up and down blocks using wavelet transform for cloud detection
Abramov et al. Development of Algorithms and Software for Automatic Pedestrian Recognition for Intelligent Situation Control Systems
Sundarama et al. FSSCaps-DetCountNet: fuzzy soft sets and CapsNet-based detection and counting network for monitoring animals from aerial images

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant