KR20200040885A - 타겟 추적 방법 및 장치, 전자 기기, 저장 매체 - Google Patents

타겟 추적 방법 및 장치, 전자 기기, 저장 매체 Download PDF

Info

Publication number
KR20200040885A
KR20200040885A KR1020207008885A KR20207008885A KR20200040885A KR 20200040885 A KR20200040885 A KR 20200040885A KR 1020207008885 A KR1020207008885 A KR 1020207008885A KR 20207008885 A KR20207008885 A KR 20207008885A KR 20200040885 A KR20200040885 A KR 20200040885A
Authority
KR
South Korea
Prior art keywords
target
image
tracking
target image
reference images
Prior art date
Application number
KR1020207008885A
Other languages
English (en)
Other versions
KR102366733B1 (ko
Inventor
샤오후이 리우
홍웨이 친
Original Assignee
베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드 filed Critical 베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드
Publication of KR20200040885A publication Critical patent/KR20200040885A/ko
Application granted granted Critical
Publication of KR102366733B1 publication Critical patent/KR102366733B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24143Distances to neighbourhood prototypes, e.g. restricted Coulomb energy networks [RCEN]
    • G06K9/00228
    • G06K9/00771
    • G06K9/3233
    • G06K9/4628
    • G06K9/6274
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/167Detection; Localisation; Normalisation using comparisons between temporally consecutive images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

본 발명 실시예는 타겟 추적 방법 및 장치, 전자 기기, 저장 매체를 제공하며, 여기서, 상기 타겟 추적 방법은, 타겟 이미지의 복수 개의 참조 이미지의 특징을 획득하는 단계; 상기 복수 개의 참조 이미지의 특징에 기반하여, 상기 타겟 이미지에서의 추적 타겟의 복수 개의 초기 예측 위치를 결정하는 단계; 및 상기 복수 개의 초기 예측 위치에 기반하여, 상기 타겟 이미지에서의 추적 타겟의 최종 위치를 결정하는 단계를 포함한다. 본 발명 상기 실시예는, 타겟 추적이 참조 이미지에 대한 의존을 방지할 수 있어, 타겟 추적의 로버스트를 향상시킨다.

Description

타겟 추적 방법 및 장치, 전자 기기, 저장 매체
관련 출원의 상호 참조
본 출원은 2018년 3월 6일에 중국 특허청에 제출한 출원 번호가 CN201810182797.X이고, 발명의 명칭이 “타겟 추적 방법 및 장치, 전자 기기, 프로그램, 저장 매체”인 중국 특허 출원의 우선권을 요청하며, 그 전부 내용을 원용하여 본 출원에 결합하였다.
본 발명은 컴퓨터 비전 기술에 관한 것으로, 특히, 타겟 추적 방법 및 장치, 전자 기기, 저장 매체에 관한 것이다.
타겟 추적 문제는, 일반적으로 비디오 시퀀스의 제1 프레임 타겟 물체 위치 정보가 주어진 전제 하에, 비디오에서 물체의 후속 위치를 예측하는 것을 의미하며; 타겟 추적 기술은 비디오 모니터링, 자율 주행, 인간-기계 상호작용 등 응용 시나리오에서 광범위하게 응용된다. 단일 프레임의 검출 기술 및 분할 기술은 시간 소모가 비교적 크며, 타겟 추적 기술은 일반적으로 검출 분할 기술과 함께 이용되어 정보 처리 속도를 향상시킴으로써, 보다 나은 실시간 성능을 보장한다.
본 발명 실시예는 타겟 추적 기술을 제공한다.
본 발명 실시예의 하나의 측면에 따르면, 타겟 추적 방법을 제공하며, 상기 타겟 추적 방법은,
타겟 이미지의 복수 개의 참조 이미지의 특징을 획득하는 단계;
상기 복수 개의 참조 이미지의 특징에 기반하여, 상기 타겟 이미지에서의 추적 타겟의 복수 개의 초기 예측 위치를 결정하는 단계; 및
상기 복수 개의 초기 예측 위치에 기반하여, 상기 타겟 이미지에서의 추적 타겟의 최종 위치를 결정하는 단계를 포함한다.
선택적으로, 상기 복수 개의 참조 이미지의 특징에 기반하여, 상기 타겟 이미지에서의 추적 타겟의 복수 개의 초기 예측 위치를 결정하는 단계는,
상기 타겟 이미지에 대해 특징 추출을 수행하여, 상기 타겟 이미지의 복수 개의 특징을 얻는 단계; 및
상기 타겟 이미지의 복수 개의 특징과 상기 복수 개의 참조 이미지의 특징에 기반하여, 상기 타겟 이미지에서의 추적 타겟의 복수 개의 초기 예측 위치를 얻는 단계를 포함한다.
선택적으로, 상기 타겟 이미지의 복수 개의 특징과 상기 복수 개의 참조 이미지의 특징에 기반하여, 상기 타겟 이미지에서의 추적 타겟의 복수 개의 초기 예측 위치를 얻는 단계는,
상기 타겟 이미지의 복수 개의 특징을 상기 복수 개의 참조 이미지의 특징 중의 대응하는 특징에 각각 연결하여, 복수 개의 연결 특징을 얻는 단계; 및
상기 복수 개의 연결 특징에 기반하여, 상기 타겟 이미지에서의 추적 타겟의 복수 개의 초기 예측 위치를 얻는 단계를 포함한다.
선택적으로, 상기 타겟 이미지에 대해 특징 추출을 수행하여, 상기 타겟 이미지의 복수 개의 특징을 얻는 단계는,
상기 타겟 이미지에 대해 컨볼루션 동작을 실행하여, 중간 특징을 얻는 단계; 및
상기 중간 특징에 대해 복수 개의 관심 영역 정렬 동작을 실행하여, 상기 타겟 이미지의 복수 개의 특징을 얻는 단계를 포함한다.
선택적으로, 상기 중간 특징에 대해 복수 개의 관심 영역 정렬 동작을 실행하여, 상기 타겟 이미지의 복수 개의 특징을 얻는 단계는,
상기 복수 개의 참조 이미지 중 적어도 하나의 참조 이미지에서의 추적 타겟의 위치에 기반하여, 상기 중간 특징에 대해 관심 영역 정렬 동작을 실행함으로써, 상기 타겟 이미지의 특징을 얻는 단계를 포함한다.
선택적으로, 상기 복수 개의 참조 이미지 중 적어도 하나의 참조 이미지에서의 추적 타겟의 위치에 기반하여, 상기 중간 특징에 대해 관심 영역 정렬 동작을 실행함으로써, 상기 타겟 이미지의 특징을 얻는 단계는,
상기 복수 개의 참조 이미지 중 적어도 하나의 참조 이미지에서의 추적 타겟에 대응하는 바운딩 박스의 상기 참조 이미지에서의 위치를 관심 영역으로 사용하여 관심 영역 정렬 동작을 수행함으로써, 상기 타겟 이미지의 특징을 얻는 단계를 포함한다.
선택적으로, 상기 복수 개의 참조 이미지 중 적어도 하나의 참조 이미지에서의 추적 타겟에 대응하는 바운딩 박스의 상기 참조 이미지에서의 위치를 관심 영역으로 사용하여 관심 영역 정렬 동작을 수행함으로써, 상기 타겟 이미지의 특징을 얻는 단계는,
상기 복수 개의 참조 이미지 중 적어도 하나의 참조 이미지에서의 추적 타겟의 바운딩 박스를 제1 기설정된 배수만큼 확대하여, 상기 적어도 하나의 참조 이미지에서의 추적 타겟에 대응하는 바운딩 박스를 얻기 위한 단계를 더 포함한다.
선택적으로, 상기 타겟 이미지에 대해 컨볼루션 동작을 실행하여, 중간 특징을 얻기 전에, 상기 타겟 추적 방법은,
상기 타겟 이미지에 대해 크롭 처리를 수행하여, 크롭된 이미지를 획득하는 단계를 더 포함하며;
상기 타겟 이미지에 대해 컨볼루션 동작을 실행하여, 중간 특징을 얻는 단계는,
상기 크롭된 이미지에 대해 컨볼루션 동작을 실행하여, 중간 특징을 얻는 단계를 포함한다.
선택적으로, 상기 타겟 이미지에 대해 크롭 처리를 수행하여, 크롭된 이미지를 획득하는 단계는,
적어도 하나의 제1 이미지에서의 추적 타겟의 위치 정보에 기반하여, 상기 타겟 이미지에 대해 크롭 처리를 수행함으로써, 크롭된 이미지를 얻는 단계 - 상기 적어도 하나의 제1 이미지는 상기 타겟 이미지 이전에 위치함 - 를 포함한다.
선택적으로, 상기 적어도 하나의 제1 이미지는 상기 타겟 이미지의 적어도 하나의 상기 참조 이미지를 포함한다.
선택적으로, 상기 적어도 하나의 제1 이미지에서의 추적 타겟의 위치 정보에 기반하여, 상기 타겟 이미지에 대해 크롭 처리를 수행함으로써, 크롭된 이미지를 얻는 단계는,
상기 적어도 하나의 제1 이미지에서의 추적 타겟의 위치 정보에 기반하여, 상기 크롭된 이미지의 중심점을 결정하는 단계; 및
상기 크롭된 이미지의 중심점에 기반하여 상기 타겟 이미지에 대해 크롭 처리를 수행함으로써, 상기 크롭된 이미지를 얻는 단계를 포함한다.
선택적으로, 상기 크롭된 이미지의 중심점에 기반하여 상기 타겟 이미지에 대해 크롭 처리를 수행함으로써, 상기 크롭된 이미지를 얻는 단계는,
상기 타겟 이미지를 제2 기설정된 배수만큼 확대하여, 확대 처리된 상기 타겟 이미지를 얻는 단계; 및
상기 크롭된 이미지의 중심점에 기반하여, 상기 확대 처리된 상기 타겟 이미지에 대해 크롭 처리를 수행함으로써, 상기 크롭된 이미지를 얻는 단계를 포함한다.
선택적으로, 상기 복수 개의 초기 예측 위치에 기반하여, 상기 타겟 이미지에서의 추적 타겟의 최종 위치를 결정하는 단계는,
상기 복수 개의 초기 예측 위치에서의 적어도 하나의 초기 예측 위치와 상기 추적 타겟의 외관 참조 위치 사이의 유사도를 각각 결정하여, 유사도가 제1 기설정된 임계값보다 큰 적어도 하나의 초기 예측 위치를 획득하는 단계; 및
상기 유사도가 제1 기설정된 임계값보다 큰 적어도 하나의 초기 예측 위치에 기반하여, 상기 타겟 이미지에 대응하는 최종 위치를 결정하는 단계를 포함한다.
선택적으로, 상기 유사도가 기설정된 임계값보다 큰 적어도 하나의 초기 예측 위치에 기반하여, 상기 타겟 이미지에 대응하는 최종 위치를 결정하는 단계는,
상기 유사도가 제1 기설정된 임계값보다 큰 적어도 하나의 초기 예측 위치를 가중 평균하여, 상기 타겟 이미지에 대응하는 최종 위치를 획득하는 단계를 포함한다.
선택적으로, 상기 복수 개의 초기 예측 위치와 상기 추적 타겟의 외관 참조 위치 사이의 유사도를 각각 결정하는 단계는,
상기 초기 예측 위치에 대응하는 바운딩 박스와 상기 추적 타겟의 외관 참조 위치에 대응하는 바운딩 박스 사이의 교집합 대 합집합의 비(intersection-over-union, IoU)에 기반하여, 적어도 하나의 상기 초기 예측 위치와 상기 추적 타겟의 외관 참조 위치 사이의 유사도를 결정하는 단계를 포함한다.
선택적으로, 상기 타겟 추적 방법은, 상기 타겟 이미지 중 추적 타겟의 결정된 최종 위치를 제1 버퍼에 저장하는 단계 - 상기 제1 버퍼는 상기 추적 타겟의 외관 참조 위치를 저장하기 위한 것임 - 를 더 포함한다.
선택적으로, 상기 복수 개의 초기 예측 위치에 기반하여, 상기 타겟 이미지에서의 추적 타겟의 최종 위치를 결정하는 단계는,
상기 복수 개의 초기 예측 위치에서 적어도 하나의 초기 예측 위치의 신뢰도를 결정하는 단계; 및
상기 신뢰도가 제2 기설정된 임계값보다 큰 적어도 하나의 상기 초기 예측 위치에 기반하여, 상기 타겟 이미지에서의 추적 타겟의 최종 위치를 결정하는 단계를 포함한다.
선택적으로, 상기 신뢰도가 제2 기설정된 임계값보다 큰 적어도 하나의 상기 초기 예측 위치에 기반하여, 상기 타겟 이미지에서의 추적 타겟의 최종 위치를 결정하는 단계는,
상기 신뢰도가 제2 기설정된 임계값보다 큰 적어도 하나의 상기 초기 예측 위치를 가중 평균하여, 상기 타겟 이미지에서의 추적 타겟의 최종 위치를 획득하는 단계를 포함한다.
선택적으로, 상기 복수 개의 초기 예측 위치에서의 적어도 하나의 초기 예측 위치의 신뢰도를 결정하는 단계는,
신뢰도 평가 네트워크를 이용하여 상기 적어도 하나의 초기 예측 위치를 각각 처리함으로써, 상기 적어도 하나의 초기 예측 위치에 대응하는 신뢰도를 얻는 단계를 포함한다.
선택적으로, 상기 신뢰도 평가 네트워크를 이용하여 상기 적어도 하나의 초기 예측 위치를 각각 처리함으로써, 상기 적어도 하나의 초기 예측 위치에 대응하는 신뢰도를 얻기 전에,
상기 신뢰도 평가 네트워크를 이용하여 샘플 이미지의 적어도 하나의 초기 예측 위치를 처리함으로써, 적어도 하나의 상기 초기 예측 위치에 대응하는 예측 신뢰도를 얻는 단계;
상기 샘플 이미지의 태깅 위치에 기반하여, 상기 적어도 하나의 초기 예측 위치의 실제 신뢰도를 결정하는 단계; 및
상기 적어도 하나의 초기 예측 위치의 예측 신뢰도 및 실제 신뢰도에 기반하여, 상기 신뢰도 평가 네트워크를 훈련시키는 단계를 더 포함한다.
선택적으로, 상기 타겟 이미지의 복수 개의 참조 이미지의 특징을 획득하는 단계는,
제2 버퍼로부터 타겟 이미지의 복수 개의 참조 이미지의 특징을 획득하는 단계를 포함한다.
선택적으로, 상기 타겟 이미지와 복수 개의 상기 참조 이미지 사이는 적어도 하나의 제2 이미지만큼 이격되고; 또는
상기 복수 개의 참조 이미지는 적어도 2 개의 인접한 이미지 프레임을 포함하고; 또는
상기 복수 개의 참조 이미지에서의 임의의 2 개의 참조 이미지는 인접하지 않는다.
선택적으로, 상기 복수 개의 초기 예측 위치에 기반하여, 상기 타겟 이미지에서의 추적 타겟의 최종 위치를 결정한 후,
상기 타겟 이미지에서의 추적 타겟의 최종 위치 및 상기 복수 개의 참조 이미지에서의 추적 타겟의 위치에 기반하여, 상기 타겟 이미지를 참조 이미지 리스트에 추가할지 여부를 결정하는 단계를 더 포함한다.
선택적으로, 상기 타겟 이미지에서의 추적 타겟의 최종 위치 및 상기 복수 개의 참조 이미지에서의 추적 타겟의 위치에 기반하여, 상기 타겟 이미지를 참조 이미지 리스트에 추가할지 여부를 결정하는 단계는,
상기 타겟 이미지에서의 추적 타겟의 바운딩 박스와 상기 복수 개의 참조 이미지에서의 추적 타겟의 각 바운딩 박스 사이의 IoU에 기반하여, 상기 타겟 이미지를 참조 이미지 리스트에 추가할지 여부를 결정하는 단계를 포함한다.
선택적으로, 상기 타겟 이미지에서의 추적 타겟의 바운딩 박스와 상기 복수 개의 참조 이미지에서의 추적 타겟의 각 바운딩 박스 사이의 IoU에 기반하여, 상기 타겟 이미지를 참조 이미지 리스트에 추가할지 여부를 결정하는 단계는,
타겟 이미지에서의 추적 타겟의 바운딩 박스와 상기 복수 개의 참조 이미지의 추적 타겟의 바운딩 박스 사이의 IoU를 각각 결정하는 단계;
복수 개의 결정된 IoU에 기반하여, 평균 IoU를 획득하는 단계; 및
상기 평균 IoU가 IoU 임계값보다 크거나 같은 것에 응답하여, 상기 타겟 이미지를 참조 이미지 리스트에 추가하는 단계를 포함한다.
선택적으로, 상기 복수 개의 초기 예측 위치에 기반하여, 상기 타겟 이미지에서의 추적 타겟의 최종 위치를 결정한 후,
상기 타겟 이미지와 상기 복수 개의 참조 이미지에서, 상기 타겟 이미지에 가장 가까운 참조 이미지 사이가 기설정된 개수의 이미지 프레임만큼 이격되면, 상기 타겟 이미지를 참조 이미지 리스트에 추가하는 단계를 더 포함한다.
선택적으로, 상기 타겟 추적 방법은,
상기 타겟 이미지를 참조 이미지 리스트에 추가하기로 결정한 것에 응답하여, 상기 제2 버퍼에서 상기 타겟 이미지의 특징을 버퍼링하는 단계를 더 포함한다.
본 발명 실시예의 다른 측면에 따르면, 타겟 추적 장치를 제공하며, 상기 타겟 추적 장치는,
타겟 이미지의 복수 개의 참조 이미지의 특징을 획득하기 위한 참조 획득 유닛;
상기 복수 개의 참조 이미지의 특징에 기반하여, 상기 타겟 이미지에서의 추적 타겟의 복수 개의 초기 예측 위치를 결정하기 위한 초기 예측 유닛; 및
상기 복수 개의 초기 예측 위치에 기반하여, 상기 타겟 이미지에서의 추적 타겟의 최종 위치를 결정하기 위한 최종 위치 유닛을 포함한다.
선택적으로, 상기 초기 예측 유닛은,
상기 타겟 이미지에 대해 특징 추출을 수행하여, 상기 타겟 이미지의 복수 개의 특징을 얻기 위한 특징 추출 모듈; 및
상기 타겟 이미지의 복수 개의 특징과 상기 복수 개의 참조 이미지의 특징에 기반하여, 상기 타겟 이미지에서의 추적 타겟의 복수 개의 초기 예측 위치를 얻기 위한 위치 예측 모듈을 포함한다.
선택적으로, 상기 위치 예측 모듈은, 상기 타겟 이미지의 복수 개의 특징을 상기 복수 개의 참조 이미지의 특징 중의 대응하는 특징에 일대일로 각각 연결하여, 복수 개의 연결 특징을 얻고; 및 상기 복수 개의 연결 특징에 기반하여, 상기 타겟 이미지에서의 추적 타겟의 복수 개의 초기 예측 위치를 얻는 위한 것이다.
선택적으로, 상기 특징 추출 모듈은,
상기 타겟 이미지에 대해 컨볼루션 동작을 실행하여, 중간 특징을 얻기 위한 컨볼루션 모듈; 및
상기 중간 특징에 대해 복수 개의 관심 영역 정렬 동작을 실행하여, 상기 타겟 이미지의 복수 개의 특징을 얻기 위한 정렬 모듈을 포함한다.
선택적으로, 상기 정렬 모듈은, 상기 복수 개의 참조 이미지 중 적어도 하나의 참조 이미지에서의 추적 타겟의 위치에 기반하여, 상기 중간 특징에 대해 관심 영역 정렬 동작을 실행함으로써, 상기 타겟 이미지의 특징을 얻기 위한 것이다.
선택적으로, 상기 정렬 모듈은, 상기 복수 개의 참조 이미지 중 적어도 하나의 참조 이미지에서의 추적 타겟에 대응하는 바운딩 박스의 상기 참조 이미지에서의 위치를 관심 영역으로 사용하여 관심 영역 정렬 동작을 수행함으로써, 상기 타겟 이미지의 특징을 얻기 위한 것이다.
선택적으로, 상기 정렬 모듈은 또한, 상기 복수 개의 참조 이미지 중 적어도 하나의 참조 이미지에서의 추적 타겟의 바운딩 박스를 제1 기설정된 배수만큼 확대하여, 상기 적어도 하나의 참조 이미지에서의 추적 타겟에 대응하는 바운딩 박스를 얻기 위한 것이다.
선택적으로, 상기 특징 추출 모듈은,
상기 타겟 이미지에 대해 크롭 처리를 수행하여, 크롭된 이미지를 획득하기 위한 크롭 모듈을 더 포함하며;
상기 컨볼루션 모듈은, 상기 크롭된 이미지에 대해 컨볼루션 동작을 실행하여, 중간 특징을 얻기 위한 것이다.
선택적으로, 상기 크롭 모듈은, 적어도 하나의 제1 이미지에서의 추적 타겟의 위치 정보에 기반하여, 상기 타겟 이미지에 대해 크롭 처리를 수행함으로써, 크롭된 이미지를 얻기 위한 것 - 상기 적어도 하나의 제1 이미지는 상기 타겟 이미지 이전에 위치함 - 이다.
선택적으로, 상기 적어도 하나의 제1 이미지는 상기 타겟 이미지의 적어도 하나의 상기 참조 이미지를 포함한다.
선택적으로, 상기 크롭 모듈은,
상기 적어도 하나의 제1 이미지에서의 추적 타겟의 위치 정보에 기반하여, 상기 크롭된 이미지의 중심점을 결정하기 위한 중심 결정 모듈; 및
상기 크롭된 이미지의 중심점에 기반하여 상기 타겟 이미지에 대해 크롭 처리를 수행함으로써, 상기 크롭된 이미지를 얻기 위한 크롭 처리 모듈을 포함한다.
선택적으로, 상기 크롭 처리 모듈은, 상기 타겟 이미지를 제2 기설정된 배수만큼 확대하여, 확대 처리된 상기 타겟 이미지를 얻고; 상기 크롭된 이미지의 중심점에 기반하여, 상기 확대 처리된 상기 타겟 이미지에 대해 크롭 처리를 수행함으로써, 상기 크롭된 이미지를 얻기 위한 것이다.
선택적으로, 상기 최종 위치 유닛은,
상기 복수 개의 초기 예측 위치에서의 적어도 하나의 초기 예측 위치와 상기 추적 타겟의 외관 참조 위치 사이의 유사도를 각각 결정하여, 유사도가 제1 기설정된 임계값보다 큰 적어도 하나의 초기 예측 위치를 획득하기 위한 유사도 결정 모듈; 및
상기 유사도가 제1 기설정된 임계값보다 큰 적어도 하나의 초기 예측 위치에 기반하여, 상기 타겟 이미지에 대응하는 최종 위치를 결정하기 위한 제1 위치 계산 모듈을 포함한다.
선택적으로, 상기 제1 위치 계산 모듈은, 상기 유사도가 제1 기설정된 임계값보다 큰 적어도 하나의 초기 예측 위치를 가중 평균하여, 상기 타겟 이미지에 대응하는 최종 위치를 획득하기 위한 것이다.
선택적으로, 상기 유사도 결정 모듈은, 상기 초기 예측 위치에 대응하는 바운딩 박스와 상기 추적 타겟의 외관 참조 위치에 대응하는 바운딩 박스 사이의 IoU에 기반하여, 적어도 하나의 상기 초기 예측 위치와 상기 추적 타겟의 외관 참조 위치 사이의 유사도를 결정하기 위한 것이다.
선택적으로, 상기 최종 위치 유닛은,
상기 타겟 이미지 중 추적 타겟의 결정된 최종 위치를 제1 버퍼에 저장하기 위한 위치 저장 모듈 - 상기 제1 버퍼는 상기 추적 타겟의 외관 참조 위치를 저장하기 위한 것임 - 을 더 포함한다.
선택적으로, 상기 최종 위치 유닛은,
상기 복수 개의 초기 예측 위치에서의 적어도 하나의 초기 예측 위치의 신뢰도를 결정하기 위한 신뢰도 결정 모듈; 및
상기 신뢰도가 제2 기설정된 임계값보다 큰 적어도 하나의 상기 초기 예측 위치에 기반하여, 상기 타겟 이미지에서의 추적 타겟의 최종 위치를 결정하기 위한 제2 위치 계산 모듈을 포함한다.
선택적으로, 상기 신뢰도 결정 모듈은, 상기 신뢰도가 제2 기설정된 임계값보다 큰 적어도 하나의 상기 초기 예측 위치를 가중 평균하여, 상기 타겟 이미지에서의 추적 타겟의 최종 위치를 획득하기 위한 것이다.
선택적으로, 상기 신뢰도 결정 모듈은, 신뢰도 평가 네트워크를 이용하여 상기 적어도 하나의 초기 예측 위치를 각각 처리함으로써, 상기 적어도 하나의 초기 예측 위치에 대응하는 신뢰도를 얻기 위한 것이다.
선택적으로, 상기 신뢰도 결정 모듈은 또한,
상기 신뢰도 평가 네트워크를 이용하여 샘플 이미지의 적어도 하나의 초기 예측 위치를 처리함으로써, 적어도 하나의 상기 초기 예측 위치에 대응하는 예측 신뢰도를 얻고;
상기 샘플 이미지의 태깅 위치에 기반하여, 상기 적어도 하나의 초기 예측 위치의 실제 신뢰도를 결정하며;
상기 적어도 하나의 초기 예측 위치의 예측 신뢰도 및 실제 신뢰도에 기반하여, 상기 신뢰도 평가 네트워크를 훈련시키기 위한 것이다.
선택적으로, 상기 참조 획득 유닛은, 제2 버퍼로부터 타겟 이미지의 복수 개의 참조 이미지의 특징을 획득하기 위한 것이다.
선택적으로, 상기 타겟 이미지와 복수 개의 상기 참조 이미지 사이는 적어도 하나의 제2 이미지만큼 이격되고; 또는
상기 복수 개의 참조 이미지는 적어도 2 개의 인접한 이미지 프레임을 포함하고; 또는
상기 복수 개의 참조 이미지에서의 임의의 2 개의 참조 이미지는 인접하지 않는다.
선택적으로, 상기 타겟 추적 장치는,
상기 타겟 이미지에서의 추적 타겟의 최종 위치 및 상기 복수 개의 참조 이미지에서의 추적 타겟의 위치에 기반하여, 상기 타겟 이미지를 참조 이미지 리스트에 추가할지 여부를 결정하기 위한 참조 이미지 결정 유닛을 더 포함한다.
선택적으로, 상기 참조 이미지 결정 유닛은, 상기 타겟 이미지에서의 추적 타겟의 바운딩 박스와 상기 복수 개의 참조 이미지에서의 추적 타겟의 바운딩 박스 사이의 IoU에 기반하여, 상기 타겟 이미지를 참조 이미지 리스트에 추가할지 여부를 결정하기 위한 것이다.
선택적으로, 상기 참조 이미지 결정 유닛은,
타겟 이미지에서의 추적 타겟의 바운딩 박스와 상기 복수 개의 참조 이미지의 추적 타겟의 바운딩 박스 사이의 IoU를 각각 결정하고, 복수 개의 결정된 IoU에 기반하여, 평균 IoU를 획득하기 위한 IoU 결정 모듈; 및
상기 평균 IoU가 IoU 임계값보다 크거나 같은 것에 응답하여, 상기 타겟 이미지를 참조 이미지 리스트에 추가하기 위한 결정 추가 모듈을 포함한다.
선택적으로, 상기 타겟 추적 장치는,
상기 타겟 이미지와 상기 복수 개의 참조 이미지에서, 상기 타겟 이미지에 가장 가까운 참조 이미지 사이가 기설정된 개수의 이미지 프레임만큼 이격되면, 상기 타겟 이미지를 참조 이미지 리스트에 추가하기 위한 참조 리스트 업데이트 유닛을 더 포함한다.
선택적으로, 상기 타겟 추적 장치는,
상기 타겟 이미지를 참조 이미지 리스트에 추가하기로 결정한 것에 응답하여, 상기 제2 버퍼에서 상기 타겟 이미지의 특징을 버퍼링하기 위한 특징 버퍼링 유닛을 더 포함한다.
본 발명 실시예의 다른 측면에 따르면, 프로세서를 포함하는 전자 기기를 제공하며, 상기 프로세서는 전술한 타겟 추적 장치를 포함한다.
본 발명 실시예의 다른 측면에 따르면, 전자 기기를 제공하며, 상기 전자 기기는, 실행 가능한 명령어를 저장하기 위한 메모리; 및
상기 실행 가능한 명령어를 실행함으로써 전술한 상기 타겟 추적 방법을 완료하기 위해, 메모리와 통신하기 위한 프로세서를 포함한다.
본 발명 실시예의 다른 측면에 따르면, 컴퓨터 판독 가능 명령어를 저장하기 위한 컴퓨터 저장 매체를 제공하며, 상기 명령어가 프로세서에 의해 실행될 때, 상기 프로세서는 전술한 타겟 추적 방법을 실행한다.
본 발명 실시예의 다른 측면에 따르면, 컴퓨터 판독 가능 코드를 포함하는 컴퓨터 프로그램을 제공하며, 상기 컴퓨터 판독 가능 코드가 기기에서 작동될 때, 상기 기기의 프로세서는 전술한 타겟 추적 방법을 실행한다.
본 발명 실시예의 또 다른 측면에 따르면, 컴퓨터 판독 가능 명령어를 저장하기 위한 컴퓨터 프로그램 제품을 제공하며, 상기 명령어가 실행될 때, 컴퓨터로 하여금 상기 임의의 가능한 구현 방식에 따른 타겟 추적 방법을 실행하도록 한다.
하나의 선택적인 실시형태에서, 상기 컴퓨터 프로그램 제품은 구체적으로 컴퓨터 저장 매체이며, 다른 하나의 선택적인 실시형태에서, 상기 컴퓨터 프로그램 제품은 구체적으로 SDK와 같은 소프트웨어 제품이다.
본 발명 실시예에 따르면, 또한 다른 타겟 추적 방법 및 이에 대응하는 장치 및 전자 기기, 컴퓨터 저장 매체, 컴퓨터 프로그램 및 컴퓨터 프로그램 제품을 제공하며, 여기서, 상기 방법은, 타겟 이미지의 복수 개의 참조 이미지의 특징을 획득하는 단계; 상기 복수 개의 참조 이미지의 특징에 기반하여, 상기 타겟 이미지에서의 추적 타겟의 복수 개의 초기 예측 위치를 결정하는 단계; 및 상기 복수 개의 초기 예측 위치에 기반하여, 상기 타겟 이미지에서의 추적 타겟의 최종 위치를 결정하는 단계를 포함한다.
본 발명 상기 실시예에 의해 제공되는 타겟 추적 방법 및 장치, 전자 기기, 저장 매체에 따르면, 타겟 이미지의 복수 개의 참조 이미지의 특징을 획득하고; 복수 개의 참조 이미지의 특징에 기반하여, 타겟 이미지에서의 추적 타겟의 복수 개의 초기 예측 위치를 결정하고, 복수 개의 초기 예측 위치에 기반하여, 타겟 이미지에서의 추적 타겟의 최종 위치를 결정하며, 타겟 추적이 참조 이미지에 대한 의존을 방지할 수 있어, 타겟 추적의 로버스트를 향상시킨다.
아래에 도면 및 실시예를 통해, 본 발명의 기술방안을 더 상세히 설명한다.
본 명세서의 일부를 구성하는 도면은 본 발명의 실시예를 설명하고, 본 발명의 원리를 설명과 함께 설명하기 위한 것이다.
이하의 상세한 설명에 따르면, 도면을 참조하여 보다 명확하게 본 발명을 이해할 수있다.
도 1은 본 발명 실시예에 의해 제공되는 타겟 추적 방법의 흐름도이다.
도 2는 본 발명 실시예에 의해 제공되는 목표 추적 방법의 선택적 예의 흐름도이다.
도 3은 도 2에 도시된 회귀 네트워크에서 타겟 프레임 브랜치가 타겟 프레임의 K 개의 제안을 얻기 위한 하나의 선택적 예의 흐름도를 도시한다.
도 4는 본 발명 실시예에 의해 제공되는 목표 추적 장치의 구성 예시도이다.
도 5는 본 발명 실시예의 단말 기기 또는 서버를 구현하기에 적합한 전자 기기의 구성 예시도이다.
이하, 도면을 참조하여 본 발명의 다양한 예시적 실시예를 상세히 설명한다. 유의해야 할 것은, 달리 구체적으로 업급되지 않는 한, 이러한 실시예들에서 제시된 구성 요소, 단계의 상대적 배열, 숫자 표현 및 값은 본 발명의 범위를 한정하지 않는다.
또한, 설명의 편의를 위해, 도면에 도시된 각 부분의 크기는 실제 비율로 도시되지 않았다는 것을 이해해야한다.
적어도 하나의 예시적 실시예에 대한 다음의 설명은 실제로 예시적일 뿐이며, 본 발명 및 그 응용 또는 이용을 한정하려는 것은 아니다.
관련 기술 분야의 통상의 기술자에게 공지된 기술, 방법 및 기기는 상세하게 논의되지 않을 수 있지만, 상기 기술, 방법 및 기기는 적절한 상황에서 본 명세서의 일부로서 고려되어야 한다.
유의해야 할 것은, 다음의 도면에서 유사한 참조 번호와 문자는 유사한 항목을 표시하므로, 어느 한 항목이 하나의 도면에서 정의되면, 후속 도면에서 이에 대해 추가로 논의할 필요가 없다.
본 발명 실시예는 많은 다른 범용 또는 특수 목적 컴퓨팅 시스템 환경 또는 구성과 함께 작동될 수있는 컴퓨터 시스템/서버에 응용될 수 있다. 컴퓨터 시스템/서버와 함께 이용하기에 적합한 잘 알려진 컴퓨팅 시스템, 환경 및 구성 중 적어도 하나의 예는 개인용 컴퓨터 시스템, 서버 컴퓨터 시스템, 씬 클라이언트, 씩 클라이언트, 핸드 헬드 또는 랩톱 기기, 마이크로 프로세서 기반 시스템, 셋톱 박스, 프로그래머블 가전 제품, 네트워크 개인용 컴퓨터, 소형 컴퓨터 시스템, 대형 컴퓨터 시스템 및 상기 시스템 중 어느 하나를 포함하는 분산 클라우드 컴퓨팅 기술 환경을 포함하지만 이에 한정되지 않는다.
컴퓨터 시스템/서버는 컴퓨터 시스템에 의해 실행되는 컴퓨터 시스템 실행 가능 명령어 (예를 들어, 프로그램 모듈)의 일반적인 맥락에서 설명 될 수있다. 일반적으로, 프로그램 모듈은 특정 작업을 실행하거나 특정 추상 데이터 타입을 구현하기 위한 루틴, 프로그램, 타겟 프로그램, 어셈블리, 논리, 데이터 구조 등을 포함할 수 있다. 컴퓨터 시스템/서버는 작업이 통신 네트워크를 통해 연결된 원격 처리 장치에 의해 실행되는 분산 클라우드 컴퓨팅 환경에서 구현 될 수있다. 분산 클라우드 컴퓨팅 환경에서, 프로그램 모듈은 저장 기기를 포함하는 로컬 또는 원격 컴퓨팅 시스템 저장 매체에 위치 할 수 있다.
도 1은 본 발명 실시예에 의해 제공되는 타겟 추적 방법의 흐름도이다. 상기 방법은 단말 기기, 서버, 모바일 기기 및 차량 탑재 기기 등과 같은 임의의 전자 기기에 의해 실행될 수 있다.
단계 110에 있어서, 타겟 이미지의 복수 개의 참조 이미지의 특징을 획득한다.
하나의 선택적인 예에서, 상기 단계 110은 메모리에 저장된 상응한 명령어를 호출함으로써 프로세서에 의해 실행될 수 있거나, 참조 획득 유닛(41)에 의해 실행될 수도 있다.
추적 타겟을 추적하기 위해, 선택적으로, 비디오 기록 등 수단을 통해 상기 추적 타겟의 멀티 프레임 이미지를 수집하고, 이러한 이미지에서의 추적 타겟의 위치를 결정하는 것을 통해, 이미지의 획득 시간을 결합하여, 상기 추적 타겟의 시간에 따른 이동 궤적을 바로 결정할 수 있으므로, 추적 타겟의 추적을 구현한다.
일부 실시예에서, 추적 타겟을 추적하기 위해, 하나 또는 복수 개의 알려진 이미지에서의 추적 타겟의 위치가 필요하고, 상기 위치에 기반하여 현재 추적해야 할 추적 타겟을 결정하며; 또는 알려진 추적 타겟은 어느 한 특정 타겟(예를 들어, 얼굴 또는 인체 등)이고, 알려진 추적 타겟에 대해 복수 개의 이미지 프레임을 수집한다.
선택적으로, 하나 또는 복수 개의 이미지에서의 추적 타겟의 결정된 위치에 기반하여, 추적 타겟의 추적을 구현하며, 본 발명 실시예의 추적 타겟은 알려지거나 알려지지 않은 특정 물체, 사람 또는 다른 타입일 수 있으며, 본 발명 실시예는 이를 한정하지 않는다.
본 발명 실시예에서, 복수 개의 참조 이미지를 포함하는 참조 이미지 리스트를 채택한다. 여기서, 복수 개의 참조 이미지에서의 임의의 2 개의 참조 이미지 사이는 서로 인접하거나 인접하지 않을 수 있다. 예를 들어, 상기 복수 개의 참조 이미지는 비디오 스트림에서 인접한 K 개의 이미지 프레임일 수 있고; 또는, 상기 복수 개의 참조 이미지에서의 일부 인접한 참조 이미지는 비디오 스트림에서 서로 인접할 수 있고, 다른 일부 인접한 참조 이미지는 비디오에서 인접하지 않을 수 있으며; 또는, 상기 복수 개의 참조 이미지에서의 임의의 2 개의 인접한 참조 이미지는 비디오 스트림에서 서로 인접하지 않을 수 있으며, 선택적으로, 복수 개의 참조 이미지 사이는 하나 또는 복수 개의 이미지만큼 이격될 수 있다. 예를 들어, 복수 개의 참조 이미지에서의 인접한 참조 이미지 사이는 N 개의 이미지 프레임과 같은 고정된 개수의 이미지 프레임만큼 이격될 수 있으며, 여기서, N은 2보다 크거나 같은 기설정된 값이다. N의 값은 응용 시나리오 및 요구 사항에 따라 결정될 수 있으며, 본 발명 실시예는 N의 값을 한정하지 않는다. 또는, 상기 복수 개의 참조 이미지에서의 상이한 인접한 이미지 사이는 상이한 개수의 이미지만큼 이격될 수도 있으며, 본 발명 실시예는 이를 한정하지 않는다.
이해해야 할 것은, 본문의 “복수 개의 참조 이미지에서의 인접한 이미지 또는 인접한 참조 이미지”는 소정의 정렬 규칙에 따라 상기 복수 개의 참조 이미지를 정렬한 후의 인접한 참조 이미지를 의미할 수 있으며, 여기서, 상기 정렬 규칙은 수집 시간 또는 검출 시간에 따른 정렬 등일 수 있으며, 본문의 “비디오 스트림에서의 인접한 이미지”는 비디오 스트림 또는 비디오 스트림 클립 중의 복수 개의 이미지를 배열한 후의 인접한 이미지를 의미할 수 있으며, 상기 정렬은 비디오 스트림에서의 원래 순서 또는 어느 특정 정렬 규칙을 의미할 수 있으며, 본 발명 실시예는 정렬의 구체적인 구현을 한정하지 않는다.
본 발명 실시예에서, 선택적으로, 타겟 이미지와 이의 복수 개의 참조 이미지는 인접할 수 있다. 또는, 타겟 이미지와 이의 참조 이미지 사이는 적어도 하나의 이미지 프레임(제2 이미지라고 지칭함)만큼 이격될 수 있다. 선택적으로, 타겟 이미지는 이의 복수 개의 참조 이미지에서의 임의의 참조 이미지와 하나 또는 복수 개의 이미지만큼 이격될 수 있고; 또는, 타겟 이미지는 복수 개의 참조 이미지에서의 일부 참조 이미지에 인접할 수 있고, 복수 개의 참조 이미지에서의 다른 일부 참조 이미지와 하나 또는 복수 개의 이미지만큼 이격될 수 있으며, 본 발명 실시예는 이를 한정하지 않는다. 타겟 이미지의 이전 프레임 이미지를 참조 이미지로 사용하는 방식과 비교하면, 본 발명 실시예에 의해 제공되는 기술방안은 예측 정확도를 향상시킬 수 있으며, 이는 초기 이미지의 예측이 보다 정확하므로, 추적하기 위한 참조 이미지로서 초기 이미지를 사용하면 오류 누적의 문제를 효과적으로 해결할 수 있다.
본 발명 실시예에서, 선택적으로, 상이한 이미지는 상이한 참조 이미지를 가질 수 있거나, 복수 개의 이미지는 동일한 참조 이미지를 재사용할 수 있으며, 예를 들어, 타겟 이미지와 적어도 하나의 제3 이미지는 동일한 참조 이미지를 가질 수 있으며, 예를 들어, 타겟 이미지의 복수 개의 참조 이미지와 제3 이미지의 복수 개의 참조 이미지는 완전히 동일하거나, 타겟 이미지의 복수 개의 참조 이미지에서의 일부 참조 이미지는 제3 이미지의 참조 이미지일 수도 있으며, 본 발명 실시예는 이를 한정하지 않는다. 여기서, 선택적으로, 상기 적어도 하나의 제3 이미지는 상기 타겟 이미지에 인접할 수 있으며, 본 발명 실시예는 이에 한정되지 않는다. 이 경우, 선택적으로, 참조 이미지의 특징을 버퍼에 저장할 수 있으며, 이미지의 추적 타겟의 위치를 예측할 때, 다만 저장된 참조 이미지의 특징을 호출하면, 위치 예측 속도를 향상시킬 수 있다.
본 발명 실시예에서, 다양한 방식으로 참조 이미지의 특징을 획득할 수 있다. 일부 실시예에서, 다른 장치로부터 참조 이미지의 특징을 획득할 수 있으며, 예를 들어, 서버는 단말 기기에 의해 송신된 참조 이미지의 특징을 수신하고, 또 예를 들어, 전자 기기는 데이터 베이스로부터 참조 이미지의 특징을 획득하며, 여기서, 상기 데이터 베이스는 전자 기기 로컬에 설치되거나 다른 기기에 설치될 수 있다. 다른 일부 실시예에서, 참조 이미지를 획득한 후, 참조 이미지에 대해 특징 추출 처리를 수행하여, 참조 이미지의 특징을 얻을 수 있다.
하나 또는 복수 개의 선택적인 실시예에서, 전자 기기의 메모리에 저장된 복수 개의 참조 이미지의 특징을 획득할 수 있으며, 예를 들어, 제2 버퍼로부터 타겟 이미지의 복수 개의 참조 이미지의 특징을 획득한다. 선택적으로, 참조 이미지의 특징을 제2 버퍼에 저장할 수 있고, 제2 버퍼로부터 참조 이미지의 특징을 획득하며, 여기서, 상기 제2 버퍼는 위치 표본 버퍼(Location Exemplar Buffer)라고도 지칭할 수 있지만, 본 발명 실시예는 제2 버퍼의 명칭을 한정하지 않는다.
본 발명 실시예에서, 제2 버퍼는 참조 이미지의 정보를 저장하기 위한 것일수 있고, 선택적으로, 현재 참조 이미지로 사용되는 복수 개의 이미지의 정보, 즉 참조 이미지 리스트에 현재 포함되는 복수 개의 참조 이미지의 정보를 저장할 수 있으며, 예를 들어, 제2 버퍼는 참조 이미지의 특징을 저장할 수 있거나, 또한 참조 이미지에서의 추적 타겟의 위치 정보를 추가로 저장할 수 있으며, 본 발명 실시예는 이를 한정하지 않는다.
딥 회귀 네트워크에 기반하여 구현된 타겟 추적 방법에서, 딥 회귀 네트워크는 참조 이미지 브랜치 및 타겟 이미지 브랜치로 구성되며, 참조 이미지 브랜치는 참조 이미지 특징 추출기를 이용하여 가치가 있는 위치 표본(location exemplar) 정보를 획득할 수 있으며, 타겟 물체에 대한 타겟 이미지 브랜치의 위치를 안내하여 예측을 수행한다. 선택적으로, 제t-1 프레임을 이용하여 제t 프레임을 예측하는 전략을 채택한다. 그러나, 실제로, 제t 프레임 타겟 물체 위치를 예측할 때, 제t-2 프레임 이전의 모든 이미지는 참조 이미지 브랜치의 특징 추출기를 통과하였고, 유효한 위치 표본이 획득되었다. 따라서, 위치 표본의 재사용을 수행함으로써, 추적 시스템의 속도를 향상시킬 수 있다.
단계 120에 있어서, 복수 개의 참조 이미지의 특징에 기반하여, 타겟 이미지에서의 추적 타겟의 복수 개의 초기 예측 위치를 결정한다.
하나의 선택적인 예에서, 상기 단계 120은 메모리에 저장된 상응하는 명령어를 호출함으로써 프로세서에 의해 실행될 수 있거나, 초기 예측 유닛(42)에 의해 실행될 수 있다.
일부 실시예에서, 복수 개의 참조 이미지 중 각 참조 이미지의 특징에 기반하여, 타겟 이미지 중 추적 타겟의 하나의 초기 예측 위치를 얻을 수 있고, 이에 대응하여, 복수 개의 초기 예측 위치와 복수 개의 참조 이미지는 일대일로 대응된다. 다른 일부 실시예에서, 복수 개의 참조 이미지에서 적어도 2 개의 참조 이미지의 특징에 기반하여, 타겟 이미지 중 추적 타겟의 하나의 초기 예측 위치를 얻을 수 있고, 이에 대응하여, 복수 개의 초기 예측 위치의 개수와 복수 개의 참조 이미지의 개수는 동일하거나 상이하며, 본 발명 실시예는 이를 한정하지 않는다.
하나 또는 복수 개의 선택적인 실시예에서, 상기 타겟 추적 방법은,
타겟 이미지에 대해 특징 추출을 수행하여, 타겟 이미지의 복수 개의 특징을 얻는 단계; 및
타겟 이미지의 복수 개의 특징과 복수 개의 참조 이미지의 특징에 기반하여, 타겟 이미지에서의 추적 타겟의 복수 개의 초기 예측 위치를 얻는 단계를 포함할 수 있다.
상기 타겟 이미지의 복수 개의 특징의 개수와 복수 개의 참조 이미지의 개수는 동일하거나 상이할 수 있으며, 본 발명 실시예는 이를 한정하지 않는다.
이해해야 할 것은, 본 발명 실시예 중의 용어 "특징"은 특징 벡터, 특징 매트릭스, 특징 텐서 또는 특징 맵을 지칭할 수 있으며, 본 발명 실시예는 이를 한정하지 않는다.
일부 실시예에서, 타겟 이미지의 복수 개의 특징 및 복수 개의 참조 이미지의 특징에 대해 가중 평균을 수행하거나, 하나 또는 복수 개의 다른 타입의 처리를 수행하여, 처리 결과를 얻고, 처리 결과에 기반하여 타겟 이미지에서의 추적 타겟의 복수 개의 초기 예측 위치를 얻을 수 있다.
일부 선택적인 실시예에서, 타겟 이미지의 복수 개의 특징과 복수 개의 참조 이미지의 특징을 연결 또는 스플라이싱하여, 복수 개의 연결 특징을 얻고, 복수 개의 연결 특징 또는 스플라이싱 특징에 기반하여, 타겟 이미지에서의 추적 타겟의 복수 개의 초기 예측 위치를 얻을 수 있다.
선택적으로, 타겟 이미지의 복수 개의 특징과 복수 개의 참조 이미지의 특징을 연결(또는 스플라이싱)하는 것은, 타겟 이미지의 복수 개의 특징을 복수 개의 참조 이미지의 특징 중의 대응하는 특징과 일대일로 대응하게 각각 연결(또는 스플라이싱)하는 것일 수 있으며, 즉 타겟 이미지의 복수 개의 특징과 복수 개의 참조 이미지의 특징을 일대일로 대응하게 연결(또는 스플라이싱)하여, 복수 개의 연결 특징 또는 스플라이싱 특징을 획득하는 것이다.
하나의 선택적인 구현에서, 상기 연결(또는 스플라이싱)은 채널 중첩을 의미하며, 예를 들어, 제1 이미지 프레임은 3 개의 채널을 통해 3 개의 특징 맵을 출력하고, 참조 이미지는 3 개의 채널을 통해 3 개의 특징 맵을 출력하며, 특징 연결을 통해 6 개의 특징 맵을 얻을 수 있다.
본 발명 실시예에서, 연결 특징에 기반하여 추적 타겟의 위치를 얻는 방식은 여러 가지가 있을 수 있다. 일부 선택적인 실시예에서, 완전 연결 계층의 처리 및 다른 네트워크 계층의 처리 중 적어도 하나를 이용하여, 추적 타겟의 초기 예측 위치를 얻을 수 있으며, 본 발명 실시예는 이를 한정하지 않는다.
본 발명 실시예에서, 관심 영역(region of interest, RoI) 풀링(pooling)을 이용하여 특징 추출을 수행하거나, 관심 영역(RoI) 정렬(Align) 특징을 이용하여 추출을 수행하거나, 다른 수단을 이용하여 특징 추출을 수행하는 것과 같은 다양한 방식을 이용하여 타겟 이미지에 대해 특징 추출을 수행하여, 타겟 이미지의 복수 개의 특징을 얻을 수 있으며, 본 발명 실시예는 이를 한정하지 않는다.
ROI Pooling은, 이름에서 알 수 있는 바, Pooling 계층의 하나이고, RoIs에 대한 Pooling이며, ROI Pooling의 특징은 입력 특징 맵 사이즈가 고정되지 않았지만, 출력 특징 맵 사이즈는 고정된 것이며; ROI의 크기가 (7,6)이고, ROI 풀링 후의 획득된 크기가 (6,6)이면, (7,6)에서 (6,6)으로의 변환은 가장자리 중 어느 픽셀의 손실을 필연적으로 초래한다. 관심 영역 정렬(ROI Align)은 이중선형보간법을 이용하여, RoI을 (7,6)에서 (12,12)까지 보간 확장한 후, (6,6)의 ROI Pooling을 수행하여, 정밀도를 향상시킬 수 있다.
또한, 본 발명 실시예에서, 선택적으로, 복수 개의 참조 이미지 중 적어도 하나의 참조 이미지에서의 추적 타겟의 위치에 기반하여, 타겟 이미지에 대해 특징 추출을 수행함으로써, 타겟 이미지의 특징을 얻을 수 있으며, 여기서, 상기 적어도 하나의 참조 이미지는 복수 개의 참조 이미지에서의 부분 또는 전부 이미지일 수 있다. 예를 들어, K 개의 참조 이미지에서의 추적 타겟의 위치에 기반하여, 타겟 이미지에 대해 특징 추출을 수행함으로써, 타겟 이미지의 K 개의 특징을 얻을 수 있으며, K는 1보다 크거나 같은 정수이며, 본 발명 실시예는 이에 한정되지 않는다.
일부 선택적인 실시예에서, 타겟 이미지에 대해 특징 추출을 수행하여, 타겟 이미지의 복수 개의 특징을 얻는 단계는,
타겟 이미지에 대해 컨볼루션 동작을 실행하여, 중간 특징을 얻는 단계; 및
중간 특징에 대해 복수 개의 관심 영역 정렬 동작을 실행하여, 타겟 이미지의 복수 개의 특징을 얻는 단계를 포함한다.
선택적으로, 중간 특징은 특징 맵 또는 다른 표현 형태일 수 있다. 중간 특징이 특징 맵이라고 가정하면, 선택적으로, 특징 맵에서 관심 영역(RoI)을 선택하여 관심 영역(RoI) 정렬 동작을 수행함으로써, 타겟 이미지의 특징을 얻을 수 있다. 이로써, 복수 개의 관심 영역(RoI)을 선택함으로써, 타겟 이미지의 복수 개의 특징을 얻을 수 있다.
본 발명 실시예에서, 다양한 방식으로 특징 맵에서 관심 영역(RoI)을 선택할 수 있다. 선택적으로, 복수 개의 참조 이미지 중 적어도 하나의 참조 이미지에서의 추적 타겟의 위치를 관심 영역으로 사용하여, 중간 특징에 대해 관심 영역(RoI) 정렬 동작을 실행함으로써, 타겟 이미지의 특징을 얻을 수 있다. 일부 실시예에서, 참조 이미지에서의 추적 타겟의 위치에 기반하여, 관심 영역(RoI)을 결정할 수 있다. 예를 들어, 추적 타겟의 바운딩 박스(bounding box)의 참조 이미지에서의 위치를 관심 영역(RoI)으로 사용할 수 있거나, 참조 이미지에서 추적 타겟에 대응하는 바운딩 박스에 대해 평행이동, 확대 등 하나 또는 복수 개의 동작을 수행하여, 관심 영역(RoI)을 얻을 수 있으며, 본 발명 실시예는 이를 한정하지 않는다.
일부 실시예에서, 복수 개의 참조 이미지 중 적어도 하나의 참조 이미지에서의 추적 타겟에 대응하는 바운딩 박스의 참조 이미지에서의 위치를 관심 영역으로 사용하여 관심 영역 정렬 동작을 수행함으로써, 타겟 이미지의 특징을 얻는다. 여기서, 추적 타겟에 대응하는 바운딩 박스는 추적 타겟의 바운딩 박스 자체일 수 있으며, 추적 타겟의 바운딩 박스에 대해 처리를 수행함으로써 얻은 것일 수도 있으며, 예를 들어, 참조 이미지에서의 추적 타겟의 바운딩 박스를 제1 기설정된 배수만큼 확대함으로써, 참조 이미지 추적 타겟에 대응하는 바운딩 박스를 얻는다.
선택적으로, 상기 제1 기설정된 배수는 응용 시나리오 또는 실제 요구에 따라 설정될 수 있으며, 예를 들어, 상기 제1 기설정된 배수는 2.0과 동일하지만, 본 발명 실시예는 상기 제1 기설정된 배수의 값에 대해 한정하지 않는다.
참조 이미지에서 추적 타겟에 대응하는 바운딩 박스의 참조 이미지에서의 위치를 결정한 후, 타겟 이미지에서 상기 위치의 영역을 관심 영역으로 사용할 수 있다.
추적 타겟은 참조 이미지에서 타겟 이미지까지 변위가 존재할 수 있으므로, 참조 이미지에서의 바운딩 박스에 의해 타겟 이미지의 특징을 얻으면, 추적 타겟의 정확한 위치가 누락될 수 있으며; 따라서, 참조 이미지에서의 추적 타겟의 바운딩 박스를 제1 기설정된 배수만큼 확대하여, 확대된 바운딩 박스를 참조 이미지에서의 위치 관심 영역(RoI)으로 사용하여 관심 영역(RoI) 정렬 동작을 수행함으로써, 예측 정확도를 향상시킬 수 있다.
본 발명 실시예에서, 직접 타겟 이미지에 대해 특징 추출을 수행할 수 있으며, 예를 들어, 타겟 이미지에 대해 컨볼루션 동작을 수행한다. 또는, 타겟 이미지에 대해 하나 또는 복수 개의 전처리를 수행한 후에, 특징 추출을 수행하며, 여기서, 상기 전처리는 크롭, 사이즈 조정, 스케일링, 회전, 밝기 조정 등 하나 또는 복수 개를 포함하며, 본 발명 실시예는 이를 한정하지 않는다.
일부 선택적인 실시예에서, 타겟 이미지에 대해 컨볼루션 동작을 실행하여, 중간 특징을 얻기 전, 상기 특징 추출 방법은 타겟 이미지에 대해 크롭 처리를 수행하여, 크롭된 이미지를 획득하는 단계를 더 포함한다. 이에 대응하여, 크롭된 이미지에 대해 컨볼루션 동작을 수행하여, 중간 특징을 얻을 수 있다.
선택적으로, 기설정된 사이즈에 기반하여 타겟 이미지에 대해 크롭 처리를 수행할 수 있거나, 비디오 스트림 중의 다른 이미지에 기반하여, 타겟 이미지에 대해 크롭 처리를 수행할 수 있다. 예를 들어, 적어도 하나의 제1 이미지에서의 추적 타겟의 위치 정보에 기반하여, 타겟 이미지에 대해 크롭 처리를 수행함으로써, 크롭된 이미지를 얻을 수 있으며, 여기서, 적어도 하나의 제1 이미지는 타겟 이미지 이전에 위치한다. 선택적으로, 상기 적어도 하나의 제1 이미지는 타겟 이미지에 인접한 적어도 하나의 이미지를 포함할 수 있으며; 또는, 상기 적어도 하나의 제1 이미지는 타겟 이미지의 적어도 하나의 참조 이미지를 포함하며, 본 발명 실시예는 이를 한정하지 않는다.
일부 실시예에서, 추적 타겟의 크롭된 이미지에서의 비율은 특정값에 도달하지만, 본 발명 실시예는 이를 한정하지 않는다.
선택적으로, 뉴럴 네트워크에서의 컨볼루션 계층은 크롭된 이미지에 대해 컨볼루션 동작을 실행함으로써, 중간 특징을 얻을 수 있으며, 본 발명 실시예는 이를 한정하지 않는다.
선택적으로, 일부 실시예에서, 적어도 하나의 제1 이미지에서의 추적 타겟의 위치 정보에 기반하여, 타겟 이미지에 대해 크롭 처리를 수행함으로써, 크롭된 이미지를 얻는 단계는,
적어도 하나의 제1 이미지에서의 추적 타겟의 위치 정보에 기반하여, 크롭된 이미지의 중심점을 결정하는 단계; 및
크롭된 이미지의 중심점에 기반하여 타겟 이미지에 대해 크롭 처리를 수행함으로써, 크롭된 이미지를 얻는 단계를 포함한다.
추적 타겟을 타겟 이미지로부터 분리하기 위해 타겟 이미지에 대해 크롭을 수행하여, 얻어진 크롭된 이미지에서의 추적 타겟의 비율이 소정의 비율보다 크도록 함으로써, 추적 타겟의 위치는 더욱 정확하게 결정된다.
선택적으로, 적어도 하나의 제1 이미지에서 추적 타겟에 대응하는 바운딩 박스의 중심점의 위치에 따라, 크롭된 이미지의 중심점의 위치를 결정할 수 있다. 예를 들어, 적어도 하나의 제1 이미지의 개수는 복수 개이고, 이에 대응하여, 복수 개의 제1 이미지에서 추적 타겟에 대응하는 바운딩 박스의 중심점의 위치의 평균값을 크롭된 이미지의 중심점의 위치로 하고, 또 예를 들어, 적어도 하나의 제1 이미지의 개수는 하나이고, 이에 대응하여, 제1 이미지에서 추적 타겟에 대응하는 바운딩 박스의 중심점의 위치를 크롭된 이미지의 중심점의 위치로 하며, 또는 제1 이미지에서 추적 타겟에 대응하는 바운딩 박스의 중심점의 위치에 대해 평행이동 등 하나 또는 복수 개의 처리를 수행하여, 크롭된 이미지의 중심점의 위치를 얻으며, 본 발명 실시예는 이에 한정되지 않는다.
선택적으로, 크롭된 과정은 2 개의 부분, 즉 중심점을 결정하는 것, 크롭된 이미지의 길이 및 너비를 결정하는 것을 포함할 수 있으며; 하나의 선택적인 예에서, 중심점은 타겟 이미지에 가까운(예를 들어, 타겟 이미지에 가장 가까운) 참조 이미지 또는 타겟 이미지의 이전 프레임 이미지에서의 추적 타겟의 위치 중심에 기반하여 결정될 수 있으며, 크롭된 이미지의 길이 및 너비는 참조 이미지 또는 이전 프레임 이미지에서의 추적 타겟에 대응하는 바운딩 박스에 기반하여 결정될 수 있다. 다른 하나의 선택적인 예에서, 적어도 하나의 제1 이미지에서 추적 타겟에 대응하는 바운딩 박스 중심점을 평균 처리하여, 크롭된 이미지의 중심점을 얻을 수 있으며, 본 발명 실시예는 이에 한정되지 않는다.
일부 실시예에서, 크롭을 수행하기 전에 또한, 타겟 이미지를 제2 기설정된 배수만큼 확대하여, 확대 처리된 타겟 이미지를 얻는다. 이에 대응하여, 크롭된 이미지의 중심점에 기반하여, 확대 처리된 타겟 이미지에 대해 크롭 처리를 수행함으로써, 크롭된 이미지를 얻을 수 있다.
제1 기설정된 배수 및 제2 기설정된 배수는 동일할 수 있거나, 상이할 수 있다. 제2 기설정된 배수는 실제 응용 시나리오 또는 요구에 따라 결정될 수 있으며, 예를 들어, 제2 기설정된 배수는 3.0과 동일하고, 본 발명 실시예는 이에 한정되지 않는다.
단계 130에 있어서, 복수 개의 초기 예측 위치에 기반하여, 타겟 이미지에서의 추적 타겟의 최종 위치를 결정한다.
하나의 선택적인 예에서, 상기 단계 130은 메모리에 저장된 상응하는 명령어를 호출함으로써 프로세서에 의해 실행될 수 있거나, 최종 위치 유닛(43)에 의해 실행될 수도 있다.
선택적으로, 초기 예측 위치 및 최종 위치 중 적어도 하나는 얼굴 박스, 인체 박스 또는 특정 물체 또는 부위의 위치 등과 같은 추적 타겟에 대응하는 바운딩 박스의 위치를 지칭할 수 있으며, 본 발명 실시예는 추적 타겟의 위치의 구체적인 형태를 한정하지 않는다.
일부 실시예에서, 복수 개의 초기 예측 위치에 대해 수학적 평균 또는 가중 평균 등과 같은 평균 처리를 수행하여, 추적 타겟의 타겟 이미지에서의 최종 위치를 얻을 수 있다. 다른 일부 실시예에서, 복수 개의 초기 예측 위치로부터 적어도 하나의 초기 예측 위치를 선택할 수 있고, 적어도 하나의 초기 예측 위치에 기반하여, 추적 타겟의 타겟 이미지에서의 최종 위치를 얻을 수 있다.
하나 또는 복수 개의 선택적인 실시예에서, 복수 개의 초기 예측 위치의 신뢰도에 기반하여, 타겟 이미지에서의 추적 타겟의 최종 위치를 결정할 수 있다.
선택적으로, 복수 개의 초기 예측 위치의 신뢰도에 기반하여, 복수 개의 초기 예측 위치로부터 적어도 하나의 초기 예측 위치를 선택하고, 적어도 하나의 초기 예측 위치에 기반하여, 최종 위치를 결정한다. 예를 들어, 복수 개의 초기 예측 위치로부터 신뢰도가 높은 적어도 하나의 초기 예측 위치를 선택한다. 여기서, 상기 적어도 하나의 초기 예측 위치는 복수 개의 초기 예측 위치 중 신뢰도가 가장 높은 기설정된 개수의 위치일 수 있거나, 복수 개의 초기 예측 위치에서 신뢰도가 제2 기설정된 임계값보다 큰 위치일 수도 있으며, 본 발명 실시예는 이를 한정하지 않는다.
신뢰도는 상기 예측 위치가 상기 타겟 이미지 중 추적 타겟의 실제 위치에 대응할 확률을 의미하며, 일부 실시예에서, 신뢰도는 평가 네트워크를 통해 획득되며, 상기 평가 네트워크는 훈련된 네트워크이며, 예를 들어, 하나의 이진 분류 네트워크를 이용하여, 예측 위치와 실제 위치가 일치할 때, 실제값 1, 예측값 0이 출력되며, 예측 위치와 실제 위치가 일치하지 않을 때, 실제값 0, 예측값 1이 출력되며, 본 발명 실시예는 평가 네트워크의 구체적인 구현에 대해 한정하지 않는다.
일부 실시예에서, 선택된 적어도 하나의 초기 예측 위치의 평균값을 최종 위치로 하고, 여기서, 상기 평균값은 산술 평균값, 기하 평균값 또는 가중 평균값일 수 있으며, 예를 들어, 선택된 적어도 하나의 초기 예측 위치에 대해 가중 평균을 수행하여, 타겟 이미지에서의 추적 타겟의 최종 위치를 획득하며, 여기서, 초기 예측 위치의 가중치는 그 신뢰도와 관련이 있으며, 신뢰도가 클수록, 가중치는 커지고, 신뢰도가 작을수록, 가중치는 작아지며, 본 발명 실시예는 이에 한정되지 않는다.
신뢰도에 따라 얻어진 초기 예측 위치에서 큰 편차를 갖는 초기 예측 위치를 삭제할 수 있으며, 이에 대응하여, 얻어진 최종 위치는 상기 타겟 이미지에서의 추적 타겟의 실제 위치에 더 접근하므로, 추적이 더 잘 구현된다.
선택적으로, 복수 개의 초기 예측 위치에서 적어도 하나의 초기 예측 위치의 신뢰도를 결정하는 단계는,
신뢰도 평가 네트워크를 이용하여 복수 개의 초기 예측 위치에 대해 각각 처리를 수행함으로써, 복수 개의 초기 예측 위치에 대응하는 신뢰도를 얻는 단계를 포함한다.
여기서, 신뢰도 평가 네트워크는 훈련을 통해 획득되며, 입력된 초기 예측 위치에 대응하여, 신뢰도 평가 네트워크는 대응하는 신뢰도를 출력할 수 있으며, 선택적으로, 예측 신뢰도 및 실제 신뢰도에 기반하여 오류를 획득할 수 있으며, 오류에 따라 역 기울기 전파 방법을 이용하여 평가 네트워크에 대해 훈련을 수행하고, 훈련된 평가 네트워크는 예측 위치가 실제 위치(알려진 타겟 위치)일 확률을 더 잘 예측할 수 있으며; 상기 평가 네트워크는 추적해야 할 특정 물체에 대해 훈련을 수행하며, 예를 들어, 얼굴을 추적해야 할 경우, 얼굴 이미지를 이용하여 상기 평가 네트워크에 대해 훈련을 수행한다.
선택적으로, 신뢰도 평가 네트워크를 이용하여 복수 개의 초기 예측 위치를 각각 처리함으로써, 복수 개의 초기 예측 위치에 대응하는 신뢰도를 얻기 전에,
신뢰도 평가 네트워크를 이용하여 샘플 이미지의 적어도 하나의 초기 예측 위치를 처리함으로써, 적어도 하나의 초기 예측 위치에 대응하는 예측 신뢰도를 얻는 단계;
샘플 이미지의 태깅 위치에 기반하여, 적어도 하나의 초기 예측 위치의 실제 신뢰도를 결정하는 단계; 및
적어도 하나의 초기 예측 위치의 예측 신뢰도 및 실제 신뢰도에 기반하여, 신뢰도 평가 네트워크를 훈련시키는 단계를 더 포함한다.
신뢰도 네트워크 평가의 정확성을 향상시키기 위해, 신뢰도 평가 네트워크에 대해 훈련을 수행하며, 훈련 과정은 뉴럴 네트워크의 훈련 과정과 동일하며, 양자 모두 알려진 실제 신뢰도의 샘플 이미지에 기반하여 신뢰도 평가 네트워크에 대해 훈련을 수행하며, 선택적으로, 상이한 추적 타겟에 대해, 맞춤형 훈련을 채택할 수 있으며, 예를 들어, 얼굴을 추적할 경우, 훈련 신뢰도 평가 네트워크 과정에서, 알려진 실제 신뢰도의 얼굴 이미지를 채택하여 신뢰도 평가 네트워크에 대해 훈련을 수행함으로써, 얼굴 이미지의 신뢰도에 대한 얻어진 신뢰도 평가 네트워크의 평가를 더욱 정확하게 한다.
본 발명의 상기 실시예에 의해 제공되는 타겟 추적 방법에 기반하여, 타겟 이미지의 복수 개의 참조 이미지의 특징을 획득하고; 복수 개의 참조 이미지의 특징에 기반하여, 타겟 이미지에서의 추적 타겟의 복수 개의 초기 예측 위치를 결정하고, 복수 개의 초기 예측 위치에 기반하여, 타겟 이미지에서의 추적 타겟의 최종 위치를 결정함으로써, 타겟 추적이 참조 이미지에 대한 의존을 방지할 수 있어, 타겟 추적의 로버스트를 향상시킨다.
하나 또는 복수 개의 선택적인 실시예에서, 복수 개의 초기 예측 위치와 추적 타겟의 외관 참조 위치 사이의 유사도에 기반하여, 타겟 이미지에서의 추적 타겟의 최종 위치를 결정한다.
선택적으로, 복수 개의 초기 예측 위치와 추적 타겟의 외관 참조 위치 사이의 유사도에 기반하여, 복수 개의 초기 예측 위치로부터 적어도 하나의 초기 예측 위치를 선택하며, 예를 들어, 복수 개의 초기 예측 위치로부터, 초기 예측 위치와 추적 타겟의 외관 참조 위치 사이의 유사도가 높은 적어도 하나의 초기 예측 위치를 선택하며, 여기서, 상기 적어도 하나의 초기 예측 위치는 복수 개의 초기 예측 위치와 외관 참조 위치 사이의 유사도가 제1 기설정된 임계값보다 큰 위치, 또는 복수 개의 초기 예측 위치와 외관 참조 위치 사이의 유사도가 가장 높은 기설정된 개수의 위치일 수 있으며, 본 발명 실시예는 이를 한정하지 않는다.
선택적으로, 다른 장치로부터 상기 추적 타겟의 외관 참조 위치를 획득할 수 있다. 또는, 추적 타겟의 외관 참조 위치를 저장하기 위한 제1 버퍼를 설치할 수 있으며, 상기 제1 버퍼는 외관 표본 버퍼(Appearance Exemplar Buffer, AEB) 또는 다른 명칭으로 지칭될 수 있으며, 본 발명 실시예는 상기 제1 버퍼의 명칭에 대해 한정하지 않는다. 이 경우, 제1 버퍼로부터 상기 추적 타겟의 외관 참조 위치를 획득할 수 있다. 또는 다른 방식으로 상기 추적 타겟의 외관 참조 위치를 얻을 수 있으며, 본 발명 실시예는 상기 추적 타겟의 외관 참조 위치를 얻는 방식에 대해 한정하지 않는다.
여기서, 상기 외관 참조 위치는 기설정되거나, 추적 타겟의 상기 비디오 스트림에서의 하나 또는 복수 개의 이미지 프레임의 위치, 또는 추적 타겟의 상기 비디오 스트림에서의 하나 또는 복수 개의 이미지 프레임의 위치에 따라 처리하여 얻은 것일 수 있으며, 예를 들어, 추적 타겟의 외관 참조 위치는 상기 타겟 이미지 이전의 적어도 하나의 이미지에서의 추적 타겟의 최종 위치에 기반하여 얻어지며, 하나의 예에서, 추적 타겟의 외관 참조 위치는 상기 타겟 대상 이전에 위치한 어느 참조 이미지에서의 추적 타겟의 최종 위치이며, 예를 들어, 상기 타겟 이미지에 가장 가까운 참조 이미지에서의 추적 타겟의 최종 위치이며, 또는, 추적 타겟의 외관 참조 위치는 상기 타겟 대상 이전에 위치한 적어도 하나의 참조 이미지에서의 추적 타겟의 최종 위치에 대해 평균 또는 병합 등 하나 또는 복수 개의 처리를 수행함으로써 얻어진다. 상기 제1 버퍼에 버퍼링된 정보는 일정하게 유지될 수 있거나, 고정된 간격으로 이미지 프레임 또는 다른 트리거링 조건에 따라 업데이트될 수 있으며, 본 발명 실시예는 이를 한정하지 않는다. 유사도를 통해 필터링하여, 상기 타겟 이미지와 관련도가 높은 예측 위치를 획득함으로써, 계산 시간을 절약하고, 추적 속도를 높이는 동시에, 추적 정확도를 보장할 수 있다.
선택적으로, 초기 예측 위치와 외관 참조 위치 사이의 거리에 기반하여, 타겟 이미지에서의 추적 타겟의 최종 위치를 결정한다.
선택적으로, 초기 예측 위치에 대응하는 바운딩 박스와 추적 타겟의 외관 참조 위치에 대응하는 바운딩 박스 사이의 IoU에 기반하여, 적어도 하나의 초기 예측 위치와 추적 타겟의 외관 참조 위치 사이의 유사도를 결정할 수 있다.
IoU(intersection-over-union)는 2 개 영역의 교집합 대 합집합의 비를 의미하며, 본 발명 실시예에서, 초기 예측 위치에 대응하는 바운딩 박스와 외관 참조 위치에 대응하는 바운딩 박스의 교집합 대 초기 예측 위치에 대응하는 바운딩 박스와 외관 참조 위치에 대응하는 바운딩 박스의 합집합의 비를 의미할 수 있으며; IoU가 클수록, 2 개의 바운딩 박스가 더 유사하다는 것을 의미하며, 즉 유사도가 크며; IoU가 작을수록, 2 개의 바운딩 박스의 유사도는 작다.
선택적으로, 본 발명 실시예는 또한 다른 방식을 이용하여 초기 예측 위치와 외관 참조 위치 사이의 유사도를 결정할 수 있으며, 본 발명 실시예는 이를 한정하지 않는다.
선택적으로, 유사도가 제1 기설정된 임계값보다 큰 적어도 하나의 초기 예측 위치를 가중 평균하여, 타겟 이미지에 대응하는 최종 위치를 획득할 수 있다.
여기서, 각 초기 예측 위치는 하나의 가중치에 대응하며, 유사도가 더 큰 초기 예측 위치에 대응하는 가중치는 더 크며, 반대로, 유사도가 더 작은 초기 예측 위치에 대응하는 가중치는 더 작다.
선택적으로, 유사도가 제1 기설정된 임계값보다 큰 적어도 하나의 초기 예측 위치를 직접 평균하여, 추적 타겟의 타겟 이미지에서의 위치를 얻을 수 있으며, 이 경우, 상기 적어도 하나의 초기 예측 위치는 동일한 가중치에 대응한다. 또는, 다른 방식으로 상기 적어도 하나의 초기 예측 위치를 처리하여, 상기 추적 타겟의 타겟 이미지에서의 위치를 얻을 수도 있으며, 본 발명 실시예는 이를 한정하지 않는다.
일부 선택적인 실시예에서, 상기 방법은, 결정된 타겟 이미지에서의 추적 타겟의 최종 위치를 제1 버퍼에 저장하는 단계를 더 포함하며, 여기서, 제1 버퍼는 추적 타겟의 외관 참조 위치를 저장하기 위한 것이다.
선택적으로, 본 발명 실시예에서, 커버 또는 증가의 방식으로 상기 추적 타겟의 타겟 이미지에서의 위치를 제1 버퍼에 저장할 수 있으며, 본 발명 실시예는 이를 한정하지 않는다. 선택적으로, 상기 추적 타겟의 타겟 이미지에서의 위치를 임의의 조건 하에서 저장할 수 있다. 또는, 추적 타겟의 타겟 이미지에서의 위치가 소정의 기설정된 조건을 만족할 때, 추적 타겟을 제1 버퍼에 저장하며, 예를 들어, 타겟 이미지와 제1 버퍼에 저장된 외관 참조 위치에 대응하는 이미지 프레임 사이의 간격은 기설정된 값이고, 또는 추적 타겟의 타겟 이미지에서의 위치는 타겟 이미지와 제1 버퍼에 저장된 외관 참조 위치 사이의 차이가 소정의 임계값을 초과하는 등과 같은 기설정된 조건을 만족시키며, 본 출원 실시예는 타겟 이미지에서의 추적 타겟의 위치를 저장하는 조건에 대해 한정하지 않는다.
하나 또는 복수 개의 선택적인 실시예에서, 추적 타겟의 타겟 이미지에서의 최종 위치를 결정한 후 또한, 타겟 이미지를 참조 이미지 리스트에 추가할지 여부를 결정할 수 있으며, 다시 말해서, 타겟 이미지를 이용하여 참조 이미지 리스트를 업데이트할지 여부를 결정한다. 여기서, 상기 참조 이미지 리스트는 복수 개의 참조 이미지를 포함할 수 있으며, 상기 참조 이미지 리스트는 처리될 이미지 프레임에서의 추적 타겟을 추적하기 위한 것일 수 있다. 동일한 참조 이미지의 특징을 이용하여 타겟 이미지에 대해 계속해서 위치 예측을 수행할 경우, 추적 타겟의 이동 위치가 크면, 위치가 정확하지 않으며, 따라서, 예측 정확성을 향상시키기 위해, 참조 이미지 리스트에 대해 주기적으로 또는 비주기적으로 업데이트할 수 있으며, 본 발명 실시예는 이를 한정하지 않는다.
본 발명 실시예에서, 선택적으로, 타겟 이미지에서의 추적 타겟의 최종 위치 및 복수 개의 참조 이미지에서의 추적 타겟의 위치에 기반하여, 타겟 이미지를 참조 이미지 리스트에 추가할지 여부를 결정할 수 있거나, 고정된 이미지 간격(예를 들어, M 개의 이미지 프레임만큼 이격됨)으로 참조 이미지 리스트를 업데이트할 수도 있으며, 이 경우, 타겟 이미지와 복수 개의 참조 이미지 사이의 간격이 기설정된 조건을 만족하는지 여부에 따라, 타겟 이미지를 참조 이미지 리스트에 추가할지 여부를 결정할 수 있으며, 또는 다른 기준에 따라 타겟 이미지를 참조 이미지 리스트에 추가할지 여부를 결정할 수 있다.
실제 타겟 추적에서, 추적 타겟의 이동은 복잡하므로, 그 속도는 항상 일정하지 않다. 제t+1 프레임의 타겟 이미지의 경우, 추적 타겟의 제t 프레임에서의 위치 및 복수 개의 참조 이미지에서의 위치에 대해 비교함으로써, 저장된 참조 이미지 리스트를 동적으로 조정하여, 보다 적절한 참조 이미지의 특징을 획득할 수 있다.
선택적으로, 제t 프레임을 이용하여 참조 이미지 리스트를 업데이트할 경우, 즉 제t 프레임을 참조 이미지 리스트에 추가하면, 제t+1 프레임 타겟 이미지와 복수 개의 참조 이미지 중 타겟 이미지에 가장 가까운 참조 이미지 사이는 인접할 수 있으며, 제t 프레임을 참조 이미지 리스트에 추가하지 않으면, 참조 이미지 리스트는 업데이트를 수행하지 않으며, 이 경우, 제t+1 프레임 타겟 이미지와 복수 개의 참조 이미지 중 타겟 이미지에 가장 가까운 참조 이미지 사이는 하나 또는 복수 개의 이미지만큼 이격될 수 있다. 예를 들어, 타겟 이미지와 복수 개의 참조 이미지 중 타겟 이미지에 가장 가까운 참조 이미지 사이는 N 개의 이미지 프레임으로 이격될 수 있으며, 여기서, N은 2보다 크거나 같은 기설정된 값이다. N의 값은 응용 시나리오에 따라 결정되며, 본 발명 실시예는 N의 값에 대해 한정하지 않는다.
선택적으로, 타겟 이미지에서의 추적 타겟의 최종 위치 및 복수 개의 참조 이미지에서의 추적 타겟의 위치에 기반하여, 타겟 이미지를 참조 이미지 리스트에 추가할지 여부를 결정하는 단계는,
타겟 이미지에서의 추적 타겟의 바운딩 박스(bounding box)와 복수 개의 참조 이미지에서의 추적 타겟의 바운딩 박스(bounding box) 사이의 IoU에 기반하여, 타겟 이미지를 참조 이미지 리스트에 추가할지 여부를 결정하는 단계를 포함한다.
선택적으로, 타겟 이미지에서의 추적 타겟의 바운딩 박스와 복수 개의 참조 이미지의 추적 타겟의 바운딩 박스 사이의 IoU를 각각 결정하며; 복수 개의 결정된 IoU에 기반하여, 평균 IoU를 획득하고; 평균 IoU가 IoU 임계값보다 크거나 같은 것에 응답하여, 타겟 이미지를 참조 이미지 리스트에 추가한다.
선택적으로, 복수 개의 IoU에 기반하여 평균 IoU를 획득하고, 복수 개의 IoU에 대해 평균을 구하여 획득하거나, 복수 개의 IoU에 대해 가중 평균을 구하여 획득하며, 선택적으로, 타겟 이미지에 가까운 참조 이미지일 수록, 이의 IoU에 대응하는 가중치는 크다.
일부 선택적인 실시예에서, 최종 위치가 복수 개의 참조 이미지에서 타겟 이미지에 가장 가까운 참조 이미지에서의 위치에 근접한 경우(2 개의 바운딩 박스 사이의 IoU는 설정된 임계값보다 크거나 같음), 상기 타겟 이미지를 참조 이미지 리스트에 추가할 필요가 없으며, 현재 참조 이미지 리스트의 정보를 계속 이용하여 다음 프레임 이미지의 위치 예측을 안내할 수 있다. 최종 위치가 복수 개의 참조 이미지에서 거리 타겟 이미지에 가장 가까운 참조 이미지에서의 위치로부터 멀리 떨어지면(2 개의 바운딩 박스 사이의 IoU는 설정된 임계값보다 작음), 타겟 이미지를 참조 이미지 리스트에 추가할 수 있다. 이러한 동적 조정 메커니즘을 통해, 이전에 계산된 특징(예컨대, 중간 특징 맵)을 충분하게 이용할 수 있음으로써, 많은 불필요한 특징 추출 과정을 감소한다.
예를 들어, 타겟 추적 방법을 이용하여 하나의 비디오 클립에서 절대 위치가 실질적으로 변하지 않는 물체를 추적할 경우, 참조 이미지에 대해 업데이트를 수행하지 않을 수 있고, 참조 이미지를 항상 이용함으로써, 적어도 하나의 비디오 이미지 프레임에서의 추적 타겟의 위치의 결정 속도를 크게 향상시켜, 추적 효율을 향상시킨다.
하나 또는 복수 개의 선택적인 실시예에서, 타겟 이미지가 복수 개의 참조 이미지 중 타겟 이미지에 가까운(예를 들어, 가장 가까우면) 참조 이미지 사이가 기설정된 개수의 이미지 프레임만큼 이격되면, 타겟 이미지를 참조 이미지 리스트에 추가하기로 결정한다.
특정 문제(특정 타겟 추적, 예컨대, 얼굴 추적)에 대해, 응용에서 맞춤형 참조 이미지 업데이트 전략을 이용하여 타겟 추적 방법의 참조 이미지에 대해 조정을 수행할 수 있으므로, 큰 보급 가치가 있다.
하나 또는 복수 개의 선택적인 실시예에서, 타겟 이미지를 참조 이미지 리스트에 추가하기로 결정한 것에 응답하여, 제2 버퍼에 타겟 이미지의 특징을 버퍼링한다.
선택적으로, 제2 버퍼에 저장된 데이터는 지속적으로 증가될 수 있고, 이에 대응하여, 참조 이미지 리스트에 포함된 참조 이미지 개수는 지속적으로 증가될 수 있으며, 이로써, 위치 예측을 수행해야 하는 경우, 제2 버퍼로부터 현재 저장된 모든 참조 이미지 중 최신 참조 이미지의 특징을 호출할 수 있다. 선택적으로, 저장 공간을 절약하기 위해, 제2 버퍼에 기설정된 개수의 참조 이미지를 저장할 수 있고, 참조 이미지 리스트에 하나의 새로운 참조 이미지를 추가할 때, 일찍 저장된(예를 들어, 가장 먼저) 하나 또는 복수 개의 참조 이미지를 삭제할 수 있고, 이에 대응하여, 상기 참조 이미지 리스트에 포함된 참조 이미지 개수는 일정하게 유지될 수 있으며, 위치 예측을 수행해야 하는 경우, 버퍼에서 현재 저장된 모든 참조 이미지의 특징만 호출하면 된다.
도 2는 본 발명 실시예에 의해 제공되는 목표 추적 방법의 선택적 예의 흐름도이다. 도 2에 도시된 바와 같이, 외관 표본 버퍼(제1 버퍼) 및 위치 표본 버퍼(제2 버퍼)의 두 부분의 추적 버퍼가 설치될 수 있으며, 여기서, 외관 표본 버퍼는 추적 타겟의 위치 사이의 유사도를 결정하기 위해, 추적 타겟의 참조 위치 정보를 버퍼링하기 위한 것이며; 위치 표본 버퍼는 멀티 프레임 융합을 수행하기 위해 K 개의 참조 이미지 중 적어도 하나의 참조 이미지의 특징 맵 및 K 개의 참조 이미지 중 적어도 하나의 참조 이미지의 추적 타겟의 위치를 버퍼링하기 위한 것이다.
한편으로, 전체 타겟 추적 네트워크는 회귀 네트워크 및 유사도 판별 네트워크를 포함할 수 있으며, 여기서, 회귀 네트워크는 특징 추출을 수행하기 위한 것이며, 유사도 판별 네트워크는 유사도 비교를 위한 것이다.
회귀 네트워크는 참조 이미지 브랜치 및 타겟 프레임 브랜치의 2 개의 브랜치를 포함할 수 있으며, 여기서, 참조 이미지 브랜치에서, 참조 이미지를 3 배로 확대(예를 들어, padding)하여, 확대된 이미지를 얻을 수 있으며, 상기 확대된 이미지를 컨볼루션 뉴럴 네트워크(convolutional neural network, CNN)에 입력하여, 중간 특징을 얻은 다음, 중간 특징에 대해 관심 영역 정렬(ROI Align) 또는 관심 영역 풀링(ROI Pooling) 처리를 수행하여, 참조 이미지에 대응하는 특징 맵을 얻을 수 있으며, 상기 특징 맵에 기반하여, 추적 타겟이 상기 참조 이미지에서의 위치를 얻을 수 있다. 또한, 상기 참조 이미지에 대응하는 특징 맵 및 추적 타겟 위치를 위치 표본 버퍼에 저장할 수 있다.
타겟 프레임 브랜치에서, 타겟 프레임은 크롭 처리를 수행하여, 크롭된 이미지를 획득하며, 크롭된 이미지를 컨볼루션 뉴럴 네트워크(CNN)에 입력하여 처리를 수행함으로써, 중간 특징을 얻으며; 다음, 위치 표본 버퍼에 버퍼링된 K 개의 참조 이미지에서의 추적 타겟의 위치에 기반하여, 중간 특징에 대해 관심 영역(RoI) 정렬 동작을 수행함으로써, 타겟 이미지의 K 개의 특징 맵을 얻으며; 다음, 타겟 이미지의 K 개의 특징 맵 및 위치 표본 버퍼에 버퍼링된 K 개의 참조 이미지의 특징 맵에 대해 스플라이싱 처리를 수행하여, K 개의 제안(proposal)을 획득하며, K 개의 제안은 K 개의 초기 예측 위치라고도 지칭할 수 있으며; 마지막으로, 유사도 평가 네트워크를 이용하여 상기 K 개의 제안 박스가 각각 외관 표본 버퍼에 버퍼링된 외관 참조 위치와 유사도 비교를 수행하여, 타겟 프레임의 최종 예측 결과를 얻을 수 있다.
도 3은 도 2에 도시된 회귀 네트워크에서 타겟 프레임 브랜치가 타겟 프레임의 K 개의 제안(proposal)을 얻기 위한 하나의 선택적 예의 흐름도를 도시한다. 도 3에 도시된 바와 같이, 참조 프레임 브랜치와 연관된 위치 표본 버퍼에는 K 개의 바운딩 박스가 저장되고, 상기 K 개의 바운딩 박스에 기반하여, 관심 영역 정렬(RoI Align) 처리를 수행함으로써, 상이한 스케일을 갖는 다양한 특징 맵을 얻을 수 있고, 멀티 스케일 풀링을 통해 가중 합산을 수행하여, K 개의 특징 맵을 얻으며; 다음, 상기 K 개의 특징 맵은 위치 표본 버퍼에 저장된 K 개의 특징 맵과 스플라이싱 처리를 수행하여, 스플라이싱 특징 맵을 얻을 수 있으며, 다음 상기 스플라이싱 특징 맵은 하나 또는 복수 개의(도면에 예시적으로 3 개를 도시함) 완전 연결 계층의 처리를 통해, K 개의 제안(proposal)을 얻는다.
이해해야 할 것은, 도 2 및 도 3에 도시된 예는 다만 본 발명의 실시예에 의해 제공되는 기술방안의 이해를 돕기 위한 것이며, 본 발명의 실시예를 한정하는 것으로 해석되어서는 안 된다. 본 발명 실시예에서 도 2 및 도 3에 도시된 예에 기반하여 다양한 수정 및 교체가 수행될 수 있으며, 일부 동작 또는 프로세스는 생략될 수 있으며, 본 발명 실시예는 이를 한정하지 않는다.
본 발명은 타겟 추적 기술의 다양한 응용 시나리오에 대해, 멀티 프레임 정보에 기반한 회귀 네트워크 프레임워크를 제안한다. 본 발명에 의해 제공되는 타겟 추적 방법은 주로 타겟 추적의 속도와 로버스트를 향상시킨다. 한편으로, 본 발명의 타겟 추적 프레임워크는 딥 회귀 네트워크의 특징 재사용 기술에 기반하여, 더욱 효율적인 중간 레벨 특징 맵 관리 개념을 이용함으로써, 전체 시스템의 딥 회귀 네트워크의 피드 포워드(feed forward) 시의 특징 재사용을 향상시키므로, 추적 방법의 효율을 보장한다. 다른 한편으로, 본 발명은 관심 영역에 기반한 특징 맵 및 멀티 프레임 재사용 및 정보 융합 전략을 제안함으로써, 종래의 회귀 알고리즘이 참조 이미지에 대해 의존하는 문제를 해결하여, 추적 시스템의 테스트에서의 표현을 더욱 로버스트하게 한다. 요약하면, 본 발명은 고속을 유지하는 동시에 타겟 추적 방법의 로버스트를 향상시킨다.
이용자가 휴대폰, 카메라를 이용하여 얼굴 및 일반 물체를 감지할 때, 흔한 발상은 타겟 추적 알고리즘과의 결합을 통해 속도를 높이고, 기기의 전력 소비를 줄이는 것이다. 본 발명 실시예에서, 딥 회귀 네트워크 타겟 추적 기술에서 특징 버퍼링 및 특징 재사용 메커니즘을 이용하므로, 타겟 추적의 속도를 크게 개선할 수 있고, 특정 작업(얼굴 추적)에서 1500fps의 고속 추적을 구현할 수 있으며, 또한, 복수 개의 참조 이미지의 특징에 기반하여 추적을 수행함으로써 추적 정확도를 향상시킬 수 있다. 이는 실제 제품 응용에서 아주 중요하며, 종래의 알고리즘의 순방향 속도를 크게 향상시킨다.
본 발명의 핵심은 높은 로버스트를 갖는 실용 고속 타겟 추적 알고리즘을 제안하는 것이며, 본 발명의 알고리즘은 딥 회귀 네트워크 특징 재사용 기술의 기초 상에서 제안된 것이며, 종래의 딥 회귀 네트워크는 주로 참조 이미지 브랜치 및 타겟 프레임 브랜치로 구성되며, 두 프레임 사이에서 타겟 물체 변위에 대한 모델링을 통해 타겟 프레임의 타겟 물체 위치에 대한 예측을 구현한다. 본 발명은 위치 표본 버퍼링을 이용하여 계산된 중간 특징(참조 이미지의 특징)을 저장하고, 후속 예측에서 이전에 버퍼링된 참조 이미지의 특징을 재사용할 것을 제안함으로써, 복수 개의 참조 이미지의 특징을 신속하게 이용하여 추적 타겟의 위치에 대해 예측할 수 있다. 타겟 이미지 브랜치에서, 본 발명은 관심 영역 정렬(RoI Align)을 이용하도록 제안하여 특징 공유를 구현하고; 특징 버퍼링및 특징 공유의 2 개의 메커니즘은 신속한 멀티 프레임 융합 예측을 가능하게 하며, 신속하고 견고한 타겟 추적을 구현할 수 있다.
본 발명 실시예의 기술방안은 강력한 확장성을 가지며, 시스템은 복수 개의 멀티 프레임 융합 전략과 결합될 수 있으며; 예를 들어, 유사도 측정 방법, 또는 특정 작업에서 표시된 스코어링 방법으로 멀티 프레임의 결과를 융합함으로써, 모두가 더 좋은 효과를 얻을 수 있다.
다른 타겟 추적 알고리즘은 이전 프레임을 참조 이미지로 사용하여 다음 프레임의 위치를 예측하는 타겟 추적 알고리즘으로서, 보행자 추적 동안 기둥에 의해 차단되면, 참조 이미지 차단은 참조 이미지에 의해 계산된 위치 표본에 드리프트 현상이 나타나게 하여, 정확하게 예측하기 어렵다. 본 발명 실시예에 의해 제공되는 타겟 추적 방법은 멀티 프레임 참조 이미지를 이용하여 상기 문제를 효과적으로 해결할 수 있다.
본 발명 실시예의 핵심은 특징 버퍼에 기반한 프레임워크이며, 실용적인 고정밀 고속 타겟 추적 방법을 구현한다. 본 발명은 회귀 네트워크 구조를 분석함으로써, 특징 버퍼링을 통해 회귀 네트워크 중간 특징 맵에 대한 유지 및 재사용 메커니즘을 제안한다. 종래의 딥 회귀 네트워크는 주로 참조 이미지 브랜치 및 타겟 프레임 브랜치로 구성되며, 두 프레임 사이에서 타겟 물체 변위를 모델링하여 타겟 프레임에 대해 타겟 물체 위치의 예측을 구현한다. 본 발명은 위치 표본 버퍼링을 이용하여 계산된 중간 특징(참조 이미지 브랜치에 의해 계산된 위치 표본)을 저장하고, 후속 예측에서 재사용 전에 버퍼링된 위치 표본을 재사용할 것을 제안함으로써, 복수 개의 참조 이미지 예시를 이용하여 물체를 신속하게 예측할 수 있다. 본 발명에 의해 제공되는 방법은 다양한 타입의 타겟 추적 시나리오에 응용될 수 있고, 딥 회귀 네트워크에 기반한 타겟 추적 알고리즘에 대해 작동 속도를 원래 속도의 2 배로 증가시키고, 추적의 실시간 성능을 향상시켜, 기기의 전력 소비를 줄일 수 있다.
당업자는 상기 방법 실시예를 구현하기 위한 모든 또는 일부 동작은 프로그램 명령어와 관련되는 하드웨어를 통해 완성되며, 전술한 프로그램은 컴퓨터 판독 가능 저장 매체에 저장될 수 있으며, 상기 프로그램이 수행될 때, 수행은 상기 방법 실시예의 동작을 포함하며; 전술한 저장 매체는 판독 전용 메모리(Read Only Memory, ROM), 랜덤 액세스 메모리(Random Access Memory, RAM), 자기 디스크 또는 광 디스크와 같은 프로그램 코드를 저장할 수 있는 다양한 매체를 포함한다.
도 4는 본 발명 실시예에 의해 제공되는 목표 추적 장치의 구성 예시도이다. 상기 실시예의 장치는 본 발명의 상기 각 방법 실시예를 구현하기 위한 것일 수 있다. 도 4에 도시된 바와 같이, 상기 실시예의 장치는,
타겟 이미지의 복수 개의 참조 이미지의 특징을 획득하기 위한 참조 획득 유닛(41)을 포함한다.
추적 타겟을 추적하기 위해, 선택적으로, 비디오 기록 등 수단을 통해 상기 추적 타겟의 멀티 프레임 이미지를 수집하고, 이러한 이미지에서의 추적 타겟의 위치를 결정하는 것을 통해, 획득 이미지의 시간을 결합하여, 바로 상기 추적 타겟의 시간에 따른 이동 궤적을 결정할 수 있으므로, 추적 타겟의 추적을 구현한다.
일부 실시예에서, 추적 타겟을 추적하기 위해, 하나 또는 복수 개의 알려진 이미지에서의 추적 타겟의 위치가 필요하고, 상기 위치에 기반하여 현재 추적해야 할 추적 타겟을 결정하며; 또는, 알려진 추적 타겟은 어느 한 특정 타겟(예를 들어, 얼굴 또는 인체 등)이고, 알려진 추적 타겟에 대해 복수 개의 이미지 프레임을 수집한다.
선택적으로, 하나 또는 복수 개의 이미지에서의 추적 타겟의 결정된 위치에 기반하여, 추적 타겟의 추적을 구현하며, 본 발명 실시예의 추적 타겟은 알려지거나 알려지지 않은 특정 물체, 사람 또는 다른 타입일 수 있으며, 본 발명 실시예는 이를 한정하지 않는다.
본 발명 실시예에서, 복수 개의 참조 이미지를 포함하는 참조 이미지 리스트를 이용한다. 여기서, 복수 개의 참조 이미지에서의 임의의 2 개의 참조 이미지 사이는 서로 인접하거나 인접하지 않을 수 있다. 예를 들어, 상기 복수 개의 참조 이미지는 비디오 스트림에서 인접한 K 개의 이미지 프레임일 수 있고; 또는, 상기 복수 개의 참조 이미지에서의 일부 인접한 참조 이미지는 비디오 스트림에서 서로 인접하고, 다른 일부 인접한 참조 이미지는 비디오에서 인접하지 않으며; 또는, 상기 복수 개의 참조 이미지에서의 임의의 2 개의 인접한 참조 이미지는 비디오 스트림에서 서로 인접하지 않을 수 있으며, 선택적으로, 복수 개의 참조 이미지 사이는 하나 또는 복수 개의 이미지만큼 이격될 수 있다. 예를 들어, 복수 개의 참조 이미지에서의 인접한 참조 이미지 사이는 고정된 개수의 이미지 프레임만큼 이격될 수 있으며, 예를 들어, N 개의 이미지 프레임, 여기서, N은 2보다 크거나 같은 기설정된 값이다. N의 값은 응용 시나리오 및 요구 사항에 따라 결정될 수 있으며, 본 발명 실시예는 N의 값을 한정하지 않는다. 또는, 상기 복수 개의 참조 이미지에서의 상이한 인접한 이미지 사이는 상이한 개수의 이미지만큼 이격될 수도 있으며, 본 발명 실시예는 이를 한정하지 않는다.
선택적으로, 타겟 이미지와 복수 개의 참조 이미지 사이는 적어도 하나의 이미지 프레임(제2 이미지라고 지칭함)만큼 이격되며; 또는, 복수 개의 참조 이미지는 적어도 2 개의 인접한 이미지 프레임을 포함하고; 또는, 복수 개의 참조 이미지에서의 임의의 2 개의 참조 이미지는 인접하지 않는다. 선택적으로, 타겟 이미지는 이의 복수 개의 참조 이미지에서의 임의의 참조 이미지와 하나 또는 복수 개의 이미지만큼 이격될 수 있고; 또는, 타겟 이미지는 복수 개의 참조 이미지에서의 일부 참조 이미지에 인접할 수 있고, 복수 개의 참조 이미지에서의 다른 일부 참조 이미지와 하나 또는 복수 개의 이미지만큼 이격될 수 있으며, 본 발명 실시예는 이를 한정하지 않는다. 타겟 이미지의 이전 프레임 이미지를 참조 이미지로 사용하는 방식과 비교하여, 본 발명 실시예에 의해 제공되는 기술방안은 예측 정확도를 향상시킬 수 있으며, 이는 초기 이미지의 예측이 보다 정확하므로, 추적하기 위한 참조 이미지로 초기 이미지를 이용하면 오류 누적의 문제를 효과적으로 해결할 수 있다.
하나 또는 복수 개의 선택적인 실시예에서, 참조 획득 유닛(41)은 전자 기기의 메모리에 저장된 복수 개의 참조 이미지의 특징을 획득할 수 있으며, 예를 들어, 제2 버퍼로부터 타겟 이미지의 복수 개의 참조 이미지의 특징을 획득한다. 선택적으로, 참조 이미지의 특징을 제2 버퍼에 저장할 수 있고, 제2 버퍼로부터 참조 이미지의 특징을 획득할 수 있으며, 여기서, 상기 제2 버퍼는 위치 표본 버퍼(Location Exemplar Buffer)라고도 지칭할 수 있지만, 본 발명 실시예는 제2 버퍼의 명칭을 한정하지 않는다.
초기 예측 유닛(42)은, 복수 개의 참조 이미지의 특징에 기반하여, 타겟 이미지에서의 추적 타겟의 복수 개의 초기 예측 위치를 결정하기 위한 것이다.
최종 위치 유닛(43)은, 복수 개의 초기 예측 위치에 기반하여, 타겟 이미지에서의 추적 타겟의 최종 위치를 결정하기 위한 것이다.
본 발명의 상기 실시예에 의해 제공되는 타겟 추적 방법에 기반하여, 타겟 이미지의 복수 개의 참조 이미지의 특징을 획득하고; 복수 개의 참조 이미지의 특징에 기반하여, 타겟 이미지에서의 추적 타겟의 복수 개의 초기 예측 위치를 결정하고, 복수 개의 초기 예측 위치에 기반하여, 타겟 이미지에서의 추적 타겟의 최종 위치를 결정함으로써, 타겟 추적이 참조 이미지에 대한 의존을 방지할 수 있어, 타겟 추적의 로버스트를 향상시킨다.
하나 또는 복수 개의 선택적인 실시예에서, 초기 예측 유닛(42)은,
타겟 이미지에 대해 특징 추출을 수행하여, 타겟 이미지의 복수 개의 특징을 얻기 위한 특징 추출 모듈; 및
타겟 이미지의 복수 개의 특징과 복수 개의 참조 이미지의 특징에 기반하여, 타겟 이미지에서의 추적 타겟의 복수 개의 초기 예측 위치를 얻기 위한 위치 예측 모듈을 포함한다.
선택적으로, 일부 선택적인 실시예에서, 위치 예측 모듈은, 타겟 이미지의 복수 개의 특징과 복수 개의 참조 이미지의 특징을 연결 또는 스플라이싱하여, 복수 개의 연결 특징을 얻고; 복수 개의 연결 특징에 기반하여, 타겟 이미지에서의 추적 타겟의 복수 개의 초기 예측 위치를 얻기 위한 것일 수 있다.
선택적으로, 타겟 이미지의 복수 개의 특징과 복수 개의 참조 이미지의 특징을 연결(또는 스플라이싱)하는 것은, 타겟 이미지의 복수 개의 특징을 복수 개의 참조 이미지의 특징 중의 대응하는 특징과 일대일로 대응하게 각각 연결(또는 스플라이싱)하는 것일 수 있으며, 즉 타겟 이미지의 복수 개의 특징과 복수 개의 참조 이미지의 특징을 일대일로 대응하게 연결(또는 스플라이싱)하여, 복수 개의 연결 특징 또는 스플라이싱 특징을 획득하는 것일 수 있다.
일부 선택적인 실시예에서, 특징 추출 모듈은,
타겟 이미지에 대해 컨볼루션 동작을 실행하여, 중간 특징을 얻기 위한 컨볼루션 모듈; 및
중간 특징에 대해 복수 개의 관심 영역 정렬 동작을 실행하여, 타겟 이미지의 복수 개의 특징을 얻기 위한 정렬 모듈을 포함한다.
선택적으로, 정렬 모듈은, 참조 이미지에서의 추적 타겟의 위치에 기반하여, 중간 특징에 대해 관심 영역(RoI) 정렬 동작을 실행함으로써, 타겟 이미지의 특징을 얻기 위한 것이다.
본 발명 실시예에서, 다양한 방식으로 특징 맵에서 관심 영역(RoI)을 선택할 수 있다. 선택적으로, 참조 이미지에서의 추적 타겟의 위치에 기반하여, 중간 특징에 대해 관심 영역 (RoI) 정렬 동작을 실행함으로써, 타겟 이미지의 특징을 얻을 수 있다. 일부 실시예에서, 정렬 모듈은, 참조 이미지에서 추적 타겟에 대응하는 바운딩 박스가 참조 이미지에서의 위치를 관심 영역(RoI)으로 사용하여 관심 영역(RoI) 정렬 동작을 수행함으로써, 타겟 이미지의 특징을 얻기 위한 것일 수 있다. 예를 들어, 참조 이미지에서 추적 타겟에 대응하는 바운딩 박스(bounding box)의 참조 이미지에서의 위치를 관심 영역(RoI)으로 사용할 수 있거나, 참조 이미지에서 추적 타겟에 대응하는 바운딩 박스에 대해 평행이동 등 하나 또는 복수 개의 동작을 수행하여, 관심 영역(RoI)을 얻을 수 있으며, 본 발명 실시예는 이를 한정하지 않는다.
선택적으로, 정렬 모듈은 또한, 참조 이미지에서의 추적 타겟의 바운딩 박스에 대해 제1 기설정된 배수만큼 확대하여, 참조 이미지 추적 타겟에 대응하는 바운딩 박스를 얻기 위한 것이다.
선택적으로, 상기 제1 기설정된 배수는 응용 시나리오 또는 실제 요구에 따라 설정될 수 있으며, 예를 들어, 상기 제1 기설정된 배수는 2.0과 동일하지만, 본 발명 실시예는 상기 제1 기설정된 배수의 값에 대해 한정하지 않는다.
추적 타겟은 참조 이미지에서 타겟 이미지까지 변위가 존재할 수 있으므로, 여전히 참조 이미지에서의 바운딩 박스에 의해 타겟 이미지의 특징을 얻으면, 추적 타겟의 정확한 위치가 누락될 수 있으며; 따라서, 참조 이미지에서의 추적 타겟의 바운딩 박스를 제1 기설정된 배수만큼 확대하여, 확대된 바운딩 박스를 참조 이미지에서의 위치 관심 영역(RoI)으로 사용하여 관심 영역(RoI) 정렬 동작을 수행함으로써, 예측 정확도를 향상시킬 수 있다.
일부 선택적인 실시예에서, 특징 추출 모듈은,
타겟 이미지에 대해 크롭 처리를 수행하여, 크롭된 이미지를 획득하기 위한 크롭 모듈을 더 포함하며;
이 경우, 컨볼루션 모듈은, 크롭된 이미지에 대해 컨볼루션 동작을 실행하여, 중간 특징을 얻기 위한 것이다.
선택적으로, 기설정된 사이즈에 기반하여 타겟 이미지에 대해 크롭 처리를 수행할 수 있거나, 비디오 스트림 중의 다른 이미지에 기반하여, 타겟 이미지에 대해 크롭 처리를 수행할 수 있다. 예를 들어, 크롭 모듈은, 적어도 하나의 제1 이미지에서의 추적 타겟의 위치 정보에 기반하여, 타겟 이미지에 대해 크롭 처리를 수행하여, 크롭된 이미지를 얻기 위한 것일 수 있으며, 여기서, 적어도 하나의 제1 이미지는 타겟 이미지 이전에 위치한다. 선택적으로, 상기 적어도 하나의 제1 이미지는 타겟 이미지에 인접한 적어도 하나의 이미지를 포함할 수 있으며; 또는, 상기 적어도 하나의 제1 이미지는 타겟 이미지의 적어도 하나의 참조 이미지를 포함하며, 본 발명 실시예는 이를 한정하지 않는다.
선택적으로, 일부 실시예에서, 크롭 모듈은,
적어도 하나의 제1 이미지에서의 추적 타겟의 위치 정보에 기반하여, 크롭된 이미지의 중심점을 결정하기 위한 중심 결정 모듈;
크롭된 이미지의 중심점에 기반하여 타겟 이미지에 대해 크롭 처리를 수행하여, 크롭된 이미지를 얻기 위한 크롭 처리 모듈을 포함한다.
추적 타겟을 타겟 이미지로부터 분리하기 위해 타겟 이미지에 대해 크롭을 수행하여, 얻어진 크롭된 이미지에서의 추적 타겟의 비율이 소정의 비율보다 크도록 함으로써, 추적 타겟의 위치는 더욱 정확하게 결정된다.
선택적으로, 크롭된 과정은 2 개의 부분, 즉 중심점을 결정하고, 크롭된 이미지의 길이 및 너비를 결정하는 것을 포함할 수 있으며; 하나의 선택적인 예에서, 중심점은 타겟 이미지에 가까운(예를 들어, 타겟 이미지에 가장 가까운) 참조 이미지 또는 타겟 이미지의 이전 프레임 이미지에서의 추적 타겟의 위치 중심에 기반하여 결정될 수 있으며, 크롭된 이미지의 길이 및 너비는 참조 이미지 또는 이전 프레임 이미지에서의 추적 타겟에 대응하는 바운딩 박스에 기반하여 결정될 수 있다. 다른 하나의 선택적인 예에서, 적어도 하나의 제1 이미지에서 추적 타겟에 대응하는 바운딩 박스 중심점을 평균 처리하여, 크롭된 이미지의 중심점을 얻을 수 있으며, 본 발명 실시예는 이를 한정하지 않는다.
일부 실시예에서, 크롭 처리 모듈은 또한, 타겟 이미지를 제2 기설정된 배수만큼 확대하여, 확대 처리된 타겟 이미지를 얻고; 이에 대응하여, 크롭된 이미지의 중심점에 기반하여, 확대 처리된 타겟 이미지에 대해 크롭 처리를 수행하여, 크롭된 이미지를 얻기 위한 것일 수 있다.
하나 또는 복수 개의 선택적인 실시예에서, 최종 위치 유닛(43)은,
복수 개의 초기 예측 위치에서 적어도 하나의 초기 예측 위치와 추적 타겟의 외관 참조 위치 사이의 유사도를 각각 결정하여, 유사도가 제1 기설정된 임계값보다 큰 적어도 하나의 초기 예측 위치를 획득기 위한 유사도 결정 모듈; 및
유사도 제1 기설정된 임계값보다 큰 적어도 하나의 초기 예측 위치에 기반하여, 타겟 이미지에 대응하는 최종 위치를 결정하기 위한 제1 위치 계산 모듈을 포함한다.
선택적으로, 다른 장치로부터 상기 추적 타겟의 외관 참조 위치를 획득할 수 있다. 또는, 추적 타겟의 외관 참조 위치를 저장하기 위한 제1 버퍼를 설치할 수 있으며, 상기 제1 버퍼는 외관 표본 버퍼(Appearance Exemplar Buffer, AEB) 또는 다른 명칭으로 지칭될 수 있으며, 본 발명 실시예는 상기 제1 버퍼의 명칭에 대해 한정하지 않는다. 이 경우, 제1 버퍼로부터 상기 추적 타겟의 외관 참조 위치를 획득할 수 있다. 또는 다른 방식으로 상기 추적 타겟의 외관 참조 위치를 얻을 수 있으며, 본 발명 실시예는 상기 추적 타겟의 외관 참조 위치를 얻는 방식에 대해 한정하지 않는다.
유사도를 통해 필터링하여, 상기 타겟 이미지와 관련도가 높은 예측 위치를 획득함으로써, 계산 시간을 절약하고, 추적 속도를 높이는 동시에, 추적 정확도를 보장할 수 있다.
선택적으로, 제1 위치 계산 모듈은, 유사도가 제1 기설정된 임계값보다 큰 적어도 하나의 초기 예측 위치를 가중 평균하여, 타겟 이미지에 대응하는 최종 위치를 획득하기 위한 것이다.
여기서, 각 초기 예측 위치는 하나의 가중치에 대응하며, 유사도가 더 큰 초기 예측 위치에 대응하는 가중치는 더 크며, 반대로, 유사도가 더 작은 초기 예측 위치에 대응하는 가중치는 더 작다.
선택적으로, 유사도 결정 모듈은, 초기 예측 위치에 대응하는 바운딩 박스와 추적 타겟의 외관 참조 위치에 대응하는 바운딩 박스 사이의 IoU에 기반하여, 적어도 하나의 초기 예측 위치와 추적 타겟의 외관 참조 위치 사이의 유사도를 결정하기 위한 것일 수 있다.
일부 선택적인 실시예에서, 최종 위치 유닛(43)은,
결정된 타겟 이미지에서의 추적 타겟의 최종 위치를 제1 버퍼에 저장하기 위한 저장 모듈을 더 포함하며, 여기서, 제1 버퍼는 추적 타겟의 외관 참조 위치를 저장하기 위한 것이다.
선택적으로, 본 발명 실시예에서, 커버 또는 추가의 방식으로 상기 추적 타겟의 타겟 이미지에서의 위치를 제1 버퍼에 저장할 수 있으며, 본 발명 실시예는 이를 한정하지 않는다. 선택적으로, 상기 추적 타겟의 타겟 이미지에서의 위치를 임의의 조건 하에서 자장할 수 있다. 또는, 추적 타겟의 타겟 이미지에서의 위치가 소정의 기설정된 조건을 만족할 때, 추적 타겟을 제1 버퍼에 저장하며, 예를 들어, 타겟 이미지와 제1 버퍼에 저장된 외관 참조 위치에 대응하는 이미지 프레임 사이의 간격은 기설정된 값이고, 또는, 추적 타겟의 타겟 이미지에서의 위치는 타겟 이미지와 제1 버퍼에 저장된 외관 참조 위치 사이의 차이가 소정의 임계값을 초과하는 등과 같은 기설정된 조건을 만족시키며, 본 출원 실시예는 타겟 이미지에서의 추적 타겟의 위치를 저장하는 조건에 대해 한정하지 않는다.
하나 또는 복수 개의 선택적인 실시예에서, 최종 위치 유닛(43)은,
복수 개의 초기 예측 위치에서의 적어도 하나의 초기 예측 위치의 신뢰도를 결정하기 위한 신뢰도 결정 모듈; 및
신뢰도가 제2 기설정된 임계값보다 큰 적어도 하나의 초기 예측 위치에 기반하여, 타겟 이미지에서의 추적 타겟의 최종 위치를 결정하기 위한 제2 위치 계산 모듈을 포함한다.
신뢰도는 상기 예측 위치가 상기 타겟 이미지 중 추적 타겟의 실제 위치에 대응할 확률을 의미하며, 상기 신뢰도는 평가 네트워크를 통해 획득되며, 상기 평가 네트워크는 훈련된 네트워크이며, 예를 들어, 하나의 이진 분류 네트워크를 이용하여, 예측 위치와 실제 위치가 일치할 때, 실제값 1, 및 예측값 0이 출력되며, 예측 위치와 실제 위치가 일치하지 않을 때, 실제값 0, 및 예측값 1이 출력된다. 상기 실시예는 주로 특정 물체(예컨대, 얼굴, 인체 등)의 추적에 관한 것이다.
선택적으로, 신뢰도 결정 모듈은, 신뢰도가 제2 기설정된 임계값보다 큰 적어도 하나의 초기 예측 위치를 가중 평균하여, 타겟 이미지에서의 추적 타겟의 최종 위치를 획득하기 위한 것이다.
여기서, 가중치는 신뢰도와 관련되며, 신뢰도가 클수록 가중치가 크고, 신뢰도가 작을수록, 가중치가 작다.
선택적으로, 신뢰도 결정 모듈은, 신뢰도 평가 네트워크를 이용하여 적어도 하나의 초기 예측 위치를 각각 처리함으로써, 적어도 하나의 초기 예측 위치에 대응하는 신뢰도를 얻기 위한 것이다.
여기서, 신뢰도 평가 네트워크는 훈련을 통해 획득되며, 입력된 초기 예측 위치에 대응하여, 신뢰도 평가 네트워크는 대응하는 신뢰도를 출력할 수 있으며, 선택적으로, 예측 신뢰도 및 실제 신뢰도에 기반하여 오류를 획득할 수 있으며, 오류에 따라 역 기울기 전파 방법을 이용하여 평가 네트워크에 대해 훈련을 수행하고, 훈련된 평가 네트워크는 예측 위치가 실제 위치(알려진 타겟 위치)일 확률을 더 잘 예측할 수 있으며; 상기 평가 네트워크는 추적해야 할 특정 물체에 대해 훈련을 수행하며, 예를 들어, 얼굴을 추적해야 할 경우, 얼굴 이미지를 이용하여 상기 평가 네트워크에 대해 훈련을 수행한다.
선택적으로, 신뢰도 결정 모듈은 또한,
신뢰도 평가 네트워크를 이용하여 샘플 이미지의 적어도 하나의 초기 예측 위치를 처리함으로써, 적어도 하나의 초기 예측 위치에 대응하는 예측 신뢰도를 얻고;
샘플 이미지의 태깅 위치에 기반하여, 적어도 하나의 초기 예측 위치의 실제 신뢰도를 결정하며;
적어도 하나의 초기 예측 위치의 예측 신뢰도 및 실제 신뢰도에 기반하여, 신뢰도 평가 네트워크를 훈련시키기 위한 것이다.
신뢰도 네트워크 평가의 정확성을 향상시키기 위해, 신뢰도 평가 네트워크에 대해 훈련을 수행하며, 훈련 과정은 뉴럴 네트워크의 훈련 과정과 동일하며, 양자 모두 알려진 실제 신뢰도의 샘플 이미지에 기반하여 신뢰도 평가 네트워크에 대해 훈련을 수행하며, 선택적으로, 상이한 추적 타겟에 대해, 맞춤형 훈련을 채택할 수 있으며, 예를 들어, 얼굴을 추적할 경우, 훈련 신뢰도 평가 네트워크 과정에서, 알려진 실제 신뢰도의 얼굴 이미지를 채택하여 신뢰도 평가 네트워크에 대해 훈련을 수행함으로써, 얼굴 이미지의 신뢰도에 대한 얻어진 신뢰도 평가 네트워크의 평가를 더욱 정확하게 한다.
하나 또는 복수 개의 선택적인 실시예에서, 상기 타겟 추적 장치는,
타겟 이미지에서의 추적 타겟의 최종 위치 및 복수 개의 참조 이미지에서의 추적 타겟의 위치에 기반하여, 타겟 이미지를 참조 이미지 리스트에 추가할지 여부를 결정하기 위한 참조 이미지 결정 유닛을 더 포함한다.
여기서, 상기 참조 이미지 리스트는 복수 개의 참조 이미지를 포함할 수 있으며, 상기 참조 이미지 리스트는 처리될 이미지 프레임에서의 추적 타겟을 추적하기 위한 것일 수 있다. 동일한 참조 이미지의 특징을 이용하여 타겟 이미지에 대해 계속해서 위치 예측을 수행할 경우, 추적 타겟의 이동 위치가 크면, 위치가 정확하지 않으며, 따라서, 예측 정확성을 향상시키기 위해, 참조 이미지 리스트에 대해 주기적으로 또는 비주기적으로 업데이트할 수 있으며, 본 발명 실시예는 이를 한정하지 않는다.
선택적으로, 참조 이미지 결정 유닛은, 타겟 이미지에서의 추적 타겟의 바운딩 박스(bounding box)와 상기 복수 개의 참조 이미지에서의 추적 타겟의 바운딩 박스(bounding box) 사이의 IoU에 기반하여, 타겟 이미지를 참조 이미지 리스트에 추가할지 여부를 결정하기 위한 것이다.
선택적으로, 참조 이미지 결정 유닛은,
타겟 이미지에서의 추적 타겟의 바운딩 박스와 복수 개의 참조 이미지의 추적 타겟의 바운딩 박스 사이의 IoU를 각각 결정하고, 복수 개의 결정된 IoU에 기반하여, 평균 IoU를 획득하기 위한 IoU 결정 모듈; 및
평균 IoU가 IoU 임계값보다 크거나 같은 것에 응답하여, 타겟 이미지를 참조 이미지 리스트에 추가하기 위한 결정 추가 모듈을 포함한다.
하나 또는 복수 개의 선택적인 실시예에서, 상기 타겟 추적 장치는,
타겟 이미지와 복수 개의 참조 이미지에서 거리 타겟 이미지에 가까운(예를 들어, 가장 가까운) 참조 이미지 사이가 기설정된 개수의 이미지 프레임만큼 이격되면, 타겟 이미지를 참조 이미지 리스트에 추가하기 위한 참조 리스트 업데이트 유닛을 더 포함할 수 있다.
특정 문제(특정 타겟 추적, 예컨대, 얼굴 추적)에 대해, 응용에서 맞춤형 참조 이미지 업데이트 전략을 이용하여 타겟 추적 방법의 참조 이미지에 대해 조정을 수행함으로써, 큰 보급 가치가 있다.
하나 또는 복수 개의 선택적인 실시예에서, 상기 타겟 장치는, 타겟 이미지를 참조 이미지 리스트에 추가하기로 결정한 것에 응답하여, 제2 버퍼에 타겟 이미지의 특징을 버퍼링하기 위한 특징 버퍼링 유닛을 더 포함한다.
선택적으로, 제2 버퍼에 저장된 데이터는 지속적으로 증가될 수 있고, 이에 대응하여, 참조 이미지 리스트에 포함된 참조 이미지 개수는 지속적으로 증가될 수 있으며, 이로써, 위치 예측을 수행해야 하는 경우, 제2 버퍼로부터 현재 저장된 모든 참조 이미지 중 최신 참조 이미지의 특징을 호출할 수 있다. 선택적으로, 저장 공간을 절약하기 위해, 제2 버퍼에 기설정된 개수의 참조 이미지를 저장할 수 있고, 참조 이미지 리스트에 하나의 새로운 참조 이미지를 추가할 때, 일찍 저장된(예를 들어, 가장 먼저) 하나 또는 복수 개의 참조 이미지를 삭제할 수 있고, 이에 대응하여, 상기 참조 이미지 리스트에 포함된 참조 이미지 개수는 일정하게 유지될 수 있으며, 위치 예측을 수행해야 하는 경우, 버퍼에서 현재 저장된 모든 참조 이미지의 특징만 호출하면 된다.
본 발명 실시예의 다른 측면에 따르면, 프로세서를 포함하는 전자 기기를 제공하며, 상기 프로세서는 본 발명에 따른 어느 한 실시예의 타겟 추적 장치를 포함한다.
본 발명 실시예의 다른 측면에 따르면, 전자 기기를 제공하며, 상기 전자 기기는, 실행 가능 명령어를 저장하기 위한 메모리; 및
실행 가능한 명령어를 실행함으로써 본 발명에 의해 제공된 타겟 추적 방법에 따른 어느 한 실시예를 완료하기 위해 메모리와 통신하기 위한 프로세서를 포함한다.
본 발명 실시예의 다른 측면에 따르면, 컴퓨터 판독 가능 명령어를 저장하기 위한 컴퓨터 저장 매체를 제공하며, 명령어가 프로세서에 의해 실행될 때, 상기 프로세서는 본 발명에 의해 제공된 타겟 추적 방법에 따른 어느 한 실시예를 실행한다.
본 발명 실시예의 다른 측면에 따르면, 컴퓨터 판독 가능 코드를 포함하는 컴퓨터 프로그램을 제공하며, 컴퓨터 판독 가능 코드가 기기에서 작동될 때, 기기의 프로세서는 본 발명에 의해 제공된 타겟 추적 방법을 실행한다.
본 발명 실시예의 또 다른 측면에 따르면, 컴퓨터 판독 가능 명령어를 저장하기 위한 컴퓨터 프로그램 제품을 제공하며, 상기 명령어가 실행될 때, 컴퓨터로 하여금 상기 임의의 가능한 구현 방식에 따른 타겟 추적 방법을 실행하도록 한다.
하나 또는 복수 개의 선택적인 실시형태에서, 본 발명 실시예는 또한 컴퓨터 판독 가능 명령어를 저장하기 위한 프로그램 제품을 제공하며, 상기 명령어가 실행될 때 컴퓨터로 하여금 상기 실시예에 중 어느 하나에 따른 타겟 추적 방법을 실행하도록 한다.
상기 컴퓨터 프로그램 제품은 구체적으로 하드웨어, 소프트웨어 또는 이들의 조합에 의해 구현된다. 하나의 선택적인 예에서, 상기 컴퓨터 프로그램 제품은 구체적으로 컴퓨터 저장 매체로 구현되며, 다른 하나의 선택적인 예에서, 상기 컴퓨터 프로그램 제품은 구체적으로 소프트웨어 개발 키트(Software Development Kit, SDK) 등과 같은 소프트웨어 제품으로 구현된다.
본 발명 실시예에 따르면, 또한 다른 타겟 추적 방법 및 이에 대응하는 장치 및 전자 기기, 컴퓨터 저장 매체, 컴퓨터 프로그램 및 컴퓨터 프로그램 제품을 제공하며, 여기서, 상기 방법은, 타겟 이미지의 복수 개의 참조 이미지의 특징을 획득하는 단계; 복수 개의 참조 이미지의 특징에 기반하여, 타겟 이미지에서의 추적 타겟의 복수 개의 초기 예측 위치를 결정하는 단계; 및 복수 개의 초기 예측 위치에 기반하여, 타겟 이미지에서의 추적 타겟의 최종 위치를 결정하는 단계를 포함한다.
일부 실시예에 있어서, 상기 타겟 추적 지시는 호출 명령어일 수 있으며, 제1 장치는 호출을 통해 제2 장치로 하여금 타겟 추적을 수행하도록 지시할 수 있으며, 따라서, 호출 명령어를 수신하는 것에 응답하여, 제2 장치는 상기 타겟 추적 방법 중의 어느 한 실시예에 따른 단계 및 프로세스 중 적어도 하나를 실행하도록 한다.
이해해야 할 것은, 본 발명의 실시예에서 "제1", "제2" 등 용어들은 다만 구별을 위해 이용되며, 본 발명의 시시예들에 대한 한정으로서 이해되지 않아야 한다.
또한 이해해야 할 것은, 본 발명에서, "복수 개의"는 둘 이상을 의미할 수 있고, "적어도 하나"는 하나 또는 둘 이상을 의미할 수 있다.
또한 이해해야 할 것은, 본 발명에서 언급된 임의의 컴포넌트, 데이터 또는 구조에 대해 문맥상 명백한 한정이 없거나 반대 동기가 없는 경우, 일반적으로 하나 또는 복수 개로 이해될 수 있다.
또한 이해해야 할 것은, 본 발명은 각 실시예의 설명에 대해 각 실시예 사이의 차이점에 초점을 맞추고, 실시예의 동일하거나 유사한 부분에 대해서는 서로 참조할 수 있으며, 간결함을 위해 더이상 설명하지 않는다.
본 발명의 실시예는 또한 이동 단말, 개인용 컴퓨터(PC), 태블릿, 서버와 같은 전자 기기를 제공한다. 도 5를 참조하면, 본 출원의 실시예에 따른 단말기기 또는 서버를 구현하기에 적합한 전자 기기(500)의 구조 모식도이며, 도 5에 도시된 바와 같이, 컴퓨터 시스템(500)은 하나 또는 복수 개의 프로세서, 통신부 등을 포함하며, 상기 하나 또는 복수 개의 프로세서는, 예를 들어, 하나 또는 복수 개의 중앙 처리 장치(CPU)(501), 및 하나 또는 복수 개의 그래픽 처리 장치(GPU)(513) 중 적어도 하나이며, 프로세서는 판독 전용 메모리(ROM)(502)에 저장된 실행 가능한 명령어 또는 저장 부분(508)으로부터 랜덤 액세스 메모리(RAM)(503)에 로딩된 실행 가능한 명령어에 따라 다양한 적절한 동작 및 처리를 실행할 수 있다. 통신부(512)는 인피니밴드(Infiniband, IB) 네트워크 카드를 포함할 수 있지만 이에 한정되지는 않는다.
프로세서는 실행 가능 명령어를 실행하기 위해, 판독 전용 메모리(502) 및 랜덤 액세스 메모리(530)와 통신할 수 있으며, 버스(504)를 통해 통신부(512)에 연결되고, 통신부(512)를 통해 다른 타겟 기기와 통신함으로써, 본 출원의 실시예에 의해 제공된 방법 중 어느 하나에 대응되는 동작을 완료하며, 예를 들어, 타겟 이미지의 복수 개의 참조 이미지의 특징을 획득하고; 복수 개의 참조 이미지의 특징에 기반하여, 타겟 이미지에서의 추적 타겟의 복수 개의 초기 예측 위치를 결정하며; 복수 개의 초기 예측 위치에 기반하여, 타겟 이미지에서의 추적 타겟의 최종 위치를 결정한다.
또한, RAM(503)에는 장치의 동작에 필요한 다양한 프로그램 및 데이터가 더 저장될 수 있다. CPU(501), ROM(502) 및 RAM(503)은 통신 버스(504)를 통해 서로 연결된다. RAM(503)이 있는 경우, ROM(502)은 선택적 모듈이다. RAM(503)은 실행 가능 명령어를 저장하고, 또는 작동될 경우, ROM(502)에 실행 가능 명령어를 기록하며, 실행 가능 명령어는 프로세서(501)로 하여금 상기 통신 방법에 대응하는 동작을 실행하도록 한다. 입력/출력(I/O) 인터페이스(505)도 버스(504)에 연결된다. 통신부(512)는 통합될 수 있거나, 버스에 연결된 복수 개의 서브 모듈(예를 들어 복수 개의 IB 랜 카드)을 갖도록 구성될 수 있다.
다음의 구성 요소, 즉 키보드, 마우스 등을 포함하는 입력 부분(506); 음극 선관(CRT), 액정 디스플레이(LCD), 스피커 등을 포함하는 출력 부분(507); 하드웨어 등을 포함하는 저장 부분(508); 및 LAN 카드, 모뎀 등을 포함하는 네트워크 인터페이스의 통신 부분(509)은 I/O 인터페이스(505)에 연결된다. 통신 부분(509)은 인터넷과 같은 네트워크를 통해 통신 처리를 실행한다. 드라이버(510)는 필요에 따라 I/O 인터페이스(505)에 연결될 수도 있다. 자기 디스크, 광 디스크, 광 자기 디스크, 반도체 메모리 등과 같은 탈착 가능한 매체(511)는 필요에 따라 저장 부분(508)에 장착된 컴퓨터 프로그램을 판독할 수 있도록 필요에 따라 드라이버(510)에 장착된다.
설명해야 할 것은, 도 5에 도시된 아키텍처는 다만 선택적인 구현형태일 뿐, 실천 과정에서, 상기 도 5의 구성 요소의 개수 및 타입은 실제 필요에 따라 선택, 감소, 증가 또는 교체되며; 상이한 기능적 구성 요소 설치에서 분리 설치 또는 통합 설치 등 구현 방식을 채택할 수 있으며, 예를 들어 GPU 및 CPU는 분리 설치되거나 GPU가 CPU에 통합되며, 통신부는 CPU 또는 GPU에 분리 설치 또는 통합 설치될 수 있는 등이다. 이들 대안적인 실시형태는 모두 본 개시에 개시된 보호 범위에 속한다.
특히, 본 발명의 실시예에 따른 흐름도를 참조하여 설명된 과정은 컴퓨터 소프트웨어 프로그램에 의해 구현될 수 있다. 예를 들어, 본 발명에 개시된 실시예는 컴퓨터 프로그램 제품을 포함하며, 기계 판독 가능 매체에 타입적으로 포함된 컴퓨터 프로그램을 포함하며, 컴퓨터 프로그램은 흐름도에 도시된 방법을 실행하기 위한 프로그램 코드를 포함하며, 프로그램 코드는 본 출원의 실시예에서 제공하는 방법의 단계를 실행하기 위한 명령어를 포함할 수 있으며, 예를 들어, 타겟 이미지의 복수 개의 참조 이미지의 특징을 획득하고; 복수 개의 참조 이미지의 특징에 기반하여, 타겟 이미지에서의 추적 타겟의 복수 개의 초기 예측 위치를 결정하며; 복수 개의 초기 예측 위치에 기반하여, 타겟 이미지에서의 추적 타겟의 최종 위치를 결정한다. 이러한 실시예에서, 상기 컴퓨터 프로그램은 통신 부분(509)를 통해 네트워크로부터 다운로드 및 설치될 수 있는 것 및 탈착 가능한 매체(511)로부터 설치될 수 있는 것 중 적어도 하나이다. 본 출원의 방법에서 정의한 상기 기능은 상기 컴퓨터 프로그램은 중앙 처리 장치(CPU)(501)에 의해 실행될 경우에 실행된다.
본 명세서에, 각 실시예는 모두 점진적으로 설명되며, 각 실시예는 다른 실시예와의 차이점에 초점을 맞추고, 각 실시예 사이의 동일하거나 유사한 부분은 서로 참조될 수 있다. 시스템 실시예는 방법 실시예에 거의 대응되므로, 설명이 비교적 간단하고, 관련 부분에 대해서는 방법 실시예의 설명을 참조한다.
본 개시의 방법과 장치는 많은 방식으로 구현될 수 있다. 예를 들어, 본 개시의 방법과 장치는 소프트웨어, 하드웨어, 펌웨어 또는 소프트웨어, 하드웨어, 펌웨어의 임의의 조합으로 구현될 수 있다. 달리 구체적으로 언급되지 않는 한, 상기 방법의 상기 단계의 상기 순서는 다만 구체적인 설명을 위한 것이며, 본 발명의 방법의 단계를 한정하려는 것은 아니다. 또한, 일부 실시예에서, 본 발명은 기록 매체에 기록된 프로그램으로서 구현될 수도 있으며, 이들 프로그램은 본 발명의 방법을 구현하기 위한 기계 판독 가능한 명령어를 포함한다. 따라서, 본 발명은 본 발명에 따른 방법들을 실행하기 위한 프로그램을 저장하는 기록 매체를 더 포함한다.
본 발명의 설명은 예시 및 설명을 목적으로 제공되며, 누락되지 않는 형태로 한정하거나 본 출원을 개시된 형태로 한정하려는 것은 아니다. 많은 보정과 변경이 본 기술분야의 통상의 기술자에게 명백하다. 실시예들은 본 발명의 원리 및 실제 응용을 더 잘 설명하고, 본 기술분야의 통상의 기술자로 하여금 특정 용도에 적합한 다양한 수정들을 갖는 다양한 실시예들을 설계하기 위해 본 발명을 이해하도록 하기 위해 선택되고 설명된다.

Claims (58)

  1. 타겟 추적 방법으로서,
    타겟 이미지의 복수 개의 참조 이미지의 특징을 획득하는 단계;
    상기 복수 개의 참조 이미지의 특징에 기반하여, 상기 타겟 이미지에서의 추적 타겟의 복수 개의 초기 예측 위치를 결정하는 단계; 및
    상기 복수 개의 초기 예측 위치에 기반하여, 상기 타겟 이미지에서의 추적 타겟의 최종 위치를 결정하는 단계를 포함하는 것을 특징으로 하는 타겟 추적 방법.
  2. 제1항에 있어서,
    상기 복수 개의 참조 이미지의 특징에 기반하여, 상기 타겟 이미지에서의 추적 타겟의 복수 개의 초기 예측 위치를 결정하는 단계는,
    상기 타겟 이미지에 대해 특징 추출을 수행하여, 상기 타겟 이미지의 복수 개의 특징을 얻는 단계; 및
    상기 타겟 이미지의 복수 개의 특징과 상기 복수 개의 참조 이미지의 특징에 기반하여, 상기 타겟 이미지에서의 추적 타겟의 복수 개의 초기 예측 위치를 얻는 단계를 포함하는 것을 특징으로 하는 타겟 추적 방법.
  3. 제2항에 있어서,
    상기 타겟 이미지의 복수 개의 특징과 상기 복수 개의 참조 이미지의 특징에 기반하여, 상기 타겟 이미지에서의 추적 타겟의 복수 개의 초기 예측 위치를 얻는 단계는,
    상기 타겟 이미지의 복수 개의 특징을 상기 복수 개의 참조 이미지의 특징 중의 대응하는 특징에 각각 연결하여, 복수 개의 연결 특징을 얻는 단계; 및
    상기 복수 개의 연결 특징에 기반하여, 상기 타겟 이미지에서의 추적 타겟의 복수 개의 초기 예측 위치를 얻는 단계를 포함하는 것을 특징으로 하는 타겟 추적 방법.
  4. 제2항 또는 제3항에 있어서,
    상기 타겟 이미지에 대해 특징 추출을 수행하여, 상기 타겟 이미지의 복수 개의 특징을 얻는 단계는,
    상기 타겟 이미지에 대해 컨볼루션 동작을 실행하여, 중간 특징을 얻는 단계; 및
    상기 중간 특징에 대해 복수 개의 관심 영역 정렬 동작을 실행하여, 상기 타겟 이미지의 복수 개의 특징을 얻는 단계를 포함하는 것을 특징으로 하는 타겟 추적 방법.
  5. 제4항에 있어서,
    상기 중간 특징에 대해 복수 개의 관심 영역 정렬 동작을 실행하여, 상기 타겟 이미지의 복수 개의 특징을 얻는 단계는,
    상기 복수 개의 참조 이미지 중 적어도 하나의 참조 이미지에서의 추적 타겟의 위치에 기반하여, 상기 중간 특징에 대해 관심 영역 정렬 동작을 실행함으로써, 상기 타겟 이미지의 특징을 얻는 단계를 포함하는 것을 특징으로 하는 타겟 추적 방법.
  6. 제5항에 있어서,
    상기 복수 개의 참조 이미지 중 적어도 하나의 참조 이미지에서의 추적 타겟의 위치에 기반하여, 상기 중간 특징에 대해 관심 영역 정렬 동작을 실행함으로써, 상기 타겟 이미지의 특징을 얻는 단계는,
    상기 적어도 하나의 참조 이미지 중 각 참조 이미지에서의 추적 타겟에 대응하는 바운딩 박스의 상기 각 참조 이미지에서의 위치를 관심 영역으로 사용하여 관심 영역 정렬 동작을 수행함으로써, 상기 타겟 이미지의 특징을 얻는 단계를 포함하는 것을 특징으로 하는 타겟 추적 방법.
  7. 제6항에 있어서,
    상기 적어도 하나의 참조 이미지 중 각 참조 이미지에서의 추적 타겟에 대응하는 바운딩 박스의 상기 각 참조 이미지에서의 위치를 관심 영역으로 사용하여 관심 영역 정렬 동작을 수행함으로써, 상기 타겟 이미지의 특징을 얻기 전에, 상기 타겟 추적 방법은,
    상기 적어도 하나의 참조 이미지 중 각 참조 이미지에서의 추적 타겟의 바운딩 박스를 제1 기설정된 배수만큼 확대하여, 상기 각 참조 이미지에서의 추적 타겟에 대응하는 바운딩 박스를 얻는 단계를 더 포함하는 것을 특징으로 하는 타겟 추적 방법.
  8. 제4항 내지 제7항 중 어느 한 항에 있어서,
    상기 타겟 이미지에 대해 컨볼루션 동작을 실행하여, 중간 특징을 얻기 전에,
    상기 타겟 이미지에 대해 크롭 처리를 수행하여, 크롭된 이미지를 획득하는 단계를 더 포함하며;
    상기 타겟 이미지에 대해 컨볼루션 동작을 실행하여, 중간 특징을 얻는 단계는,
    상기 크롭된 이미지에 대해 컨볼루션 동작을 실행하여, 중간 특징을 얻는 단계를 포함하는 것을 특징으로 하는 타겟 추적 방법.
  9. 제8항에 있어서,
    상기 타겟 이미지에 대해 크롭 처리를 수행하여, 크롭된 이미지를 획득하는 단계는,
    적어도 하나의 제1 이미지에서의 추적 타겟의 위치 정보에 기반하여, 상기 타겟 이미지에 대해 크롭 처리를 수행함으로써, 크롭된 이미지를 얻는 단계 - 상기 적어도 하나의 제1 이미지는 상기 타겟 이미지 이전에 위치함 - 를 포함하는 것을 특징으로 하는 타겟 추적 방법.
  10. 제9항에 있어서,
    상기 적어도 하나의 제1 이미지는 상기 타겟 이미지의 적어도 하나의 상기 참조 이미지를 포함하는 것을 특징으로 하는 타겟 추적 방법.
  11. 제9항 또는 제10항에 있어서,
    상기 적어도 하나의 제1 이미지에서의 추적 타겟의 위치 정보에 기반하여, 상기 타겟 이미지에 대해 크롭 처리를 수행함으로써, 크롭된 이미지를 얻는 단계는,
    상기 적어도 하나의 제1 이미지에서의 추적 타겟의 위치 정보에 기반하여, 상기 크롭된 이미지의 중심점을 결정하는 단계; 및
    상기 크롭된 이미지의 중심점에 기반하여 상기 타겟 이미지에 대해 크롭 처리를 수행함으로써, 상기 크롭된 이미지를 얻는 단계를 포함하는 것을 특징으로 하는 타겟 추적 방법.
  12. 제11항에 있어서,
    상기 크롭된 이미지의 중심점에 기반하여 상기 타겟 이미지에 대해 크롭 처리를 수행함으로써, 상기 크롭된 이미지를 얻는 단계는,
    상기 타겟 이미지를 제2 기설정된 배수만큼 확대하여, 확대 처리된 상기 타겟 이미지를 얻는 단계; 및
    상기 크롭된 이미지의 중심점에 기반하여, 상기 확대 처리된 상기 타겟 이미지에 대해 크롭 처리를 수행함으로써, 상기 크롭된 이미지를 얻는 단계를 포함하는 것을 특징으로 하는 타겟 추적 방법.
  13. 제1항 내지 제12항 중 어느 한 항에 있어서,
    상기 복수 개의 초기 예측 위치에 기반하여, 상기 타겟 이미지에서의 추적 타겟의 최종 위치를 결정하는 단계는,
    상기 복수 개의 초기 예측 위치로부터 적어도 하나의 초기 예측 위치를 선택하는 단계; 및
    상기 적어도 하나의 초기 예측 위치에 기반하여, 상기 타겟 이미지에서의 추적 타겟의 최종 위치를 결정하는 단계를 포함하는 것을 특징으로 하는 타겟 추적 방법.
  14. 제13항에 있어서,
    상기 복수 개의 초기 예측 위치로부터 적어도 하나의 초기 예측 위치를 선택하는 단계는,
    상기 복수 개의 초기 예측 위치로부터 상기 추적 타겟의 외관 참조 위치와의 유사도가 제1 기설정된 임계값보다 큰 적어도 하나의 초기 예측 위치를 선택하는 단계를 포함하는 것을 특징으로 하는 타겟 추적 방법.
  15. 제14항에 있어서,
    상기 초기 예측 위치에 대응하는 바운딩 박스와 상기 추적 타겟의 외관 참조 위치에 대응하는 바운딩 박스 사이의 IoU에 기반하여, 상기 초기 예측 위치와 상기 추적 타겟의 외관 참조 위치 사이의 유사도를 결정하는 단계를 더 포함하는 것을 특징으로 하는 타겟 추적 방법.
  16. 제14항 또는 제15항에 있어서,
    상기 타겟 이미지 중 추적 타겟의 결정된 최종 위치를 제1 버퍼에 저장하는 단계 - 상기 제1 버퍼는 상기 추적 타겟의 외관 참조 위치를 저장하기 위한 것임 - 를 더 포함하는 것을 특징으로 하는 타겟 추적 방법.
  17. 제13항에 있어서,
    상기 복수 개의 초기 예측 위치로부터 적어도 하나의 초기 예측 위치를 선택하는 단계는,
    상기 복수 개의 초기 예측 위치로부터 신뢰도가 제2 기설정된 임계값보다 큰 적어도 하나의 초기 예측 위치를 선택하는 단계를 포함하는 것을 특징으로 하는 타겟 추적 방법.
  18. 제17항에 있어서,
    신뢰도 평가 네트워크를 이용하여 상기 초기 예측 위치를 처리함으로써, 상기 초기 예측 위치에 대응하는 신뢰도를 얻는 단계를 더 포함하는 것을 특징으로 하는 타겟 추적 방법.
  19. 제18항에 있어서,
    상기 신뢰도 평가 네트워크를 이용하여 샘플 이미지의 적어도 하나의 초기 예측 위치를 처리함으로써, 적어도 하나의 상기 초기 예측 위치에 대응하는 예측 신뢰도를 얻는 단계;
    상기 샘플 이미지의 태깅 위치 정보에 기반하여, 상기 적어도 하나의 초기 예측 위치의 실제 신뢰도를 결정하는 단계; 및
    상기 적어도 하나의 초기 예측 위치의 예측 신뢰도 및 실제 신뢰도에 기반하여, 상기 신뢰도 평가 네트워크를 훈련시키는 단계를 더 포함하는 것을 특징으로 하는 타겟 추적 방법.
  20. 제13항 내지 제19항 중 어느 한 항에 있어서,
    상기 적어도 하나의 초기 예측 위치에 기반하여, 상기 타겟 이미지에서의 추적 타겟의 최종 위치를 결정하는 단계는,
    상기 적어도 하나의 초기 예측 위치를 가중 평균하여, 상기 타겟 이미지에서의 추적 타겟의 최종 위치를 획득하는 단계를 포함하는 것을 특징으로 하는 타겟 추적 방법.
  21. 제1항 내지 제20항 중 어느 한 항에 있어서,
    상기 타겟 이미지의 복수 개의 참조 이미지의 특징을 획득하는 단계는,
    제2 버퍼로부터 타겟 이미지의 복수 개의 참조 이미지의 특징을 획득하는 단계를 포함하는 것을 특징으로 하는 타겟 추적 방법.
  22. 제1항 내지 제21항 중 어느 한 항에 있어서,
    상기 타겟 이미지와 복수 개의 상기 참조 이미지 사이는 적어도 하나의 제2 이미지만큼 이격되고; 또는
    상기 복수 개의 참조 이미지는 적어도 2 개의 인접한 이미지 프레임을 포함하고; 또는
    상기 복수 개의 참조 이미지에서의 임의의 2 개의 참조 이미지는 인접하지 않는 것을 특징으로 하는 타겟 추적 방법.
  23. 제1항 내지 제22항 중 어느 한 항에 있어서,
    상기 복수 개의 초기 예측 위치에 기반하여, 상기 타겟 이미지에서의 추적 타겟의 최종 위치를 결정한 후,
    상기 타겟 이미지에서의 추적 타겟의 최종 위치 및 상기 복수 개의 참조 이미지에서의 추적 타겟의 위치에 기반하여, 상기 타겟 이미지를 참조 이미지 리스트에 추가할지 여부를 결정하는 단계를 더 포함하는 것을 특징으로 하는 타겟 추적 방법.
  24. 제23항에 있어서,
    상기 타겟 이미지에서의 추적 타겟의 최종 위치 및 상기 복수 개의 참조 이미지에서의 추적 타겟의 위치에 기반하여, 상기 타겟 이미지를 새로 추가된 참조 이미지로 사용할지 여부를 결정하는 단계는,
    상기 타겟 이미지에서의 추적 타겟의 바운딩 박스와 상기 복수 개의 참조 이미지에서의 추적 타겟의 각 바운딩 박스 사이의 IoU에 기반하여, 상기 타겟 이미지를 참조 이미지 리스트에 추가할지 여부를 결정하는 단계를 포함하는 것을 특징으로 하는 타겟 추적 방법.
  25. 제24항에 있어서,
    상기 타겟 이미지에서의 추적 타겟의 바운딩 박스와 상기 복수 개의 참조 이미지에서의 추적 타겟의 각 바운딩 박스 사이의 IoU에 기반하여, 상기 타겟 이미지를 참조 이미지 리스트에 추가할지 여부를 결정하는 단계는,
    타겟 이미지에서의 추적 타겟의 바운딩 박스와 상기 복수 개의 참조 이미지의 추적 타겟의 바운딩 박스 사이의 IoU를 각각 결정하는 단계;
    복수 개의 결정된 IoU에 기반하여, 평균 IoU를 획득하는 단계; 및
    상기 평균 IoU가 IoU 임계값보다 크거나 같은 것에 응답하여, 상기 타겟 이미지를 참조 이미지 리스트에 추가하는 단계를 포함하는 것을 특징으로 하는 타겟 추적 방법.
  26. 제1항 내지 제22항 중 어느 한 항에 있어서,
    상기 복수 개의 초기 예측 위치에 기반하여, 상기 타겟 이미지에서의 추적 타겟의 최종 위치를 결정한 후,
    상기 타겟 이미지와 상기 복수 개의 참조 이미지 중 상기 타겟 이미지에 가장 가까운 참조 이미지 사이가 기설정된 개수의 이미지 프레임만큼 이격된 것에 응답하여, 상기 타겟 이미지를 참조 이미지 리스트에 추가하는 단계를 더 포함하는 것을 특징으로 하는 타겟 추적 방법.
  27. 제23항 내지 제26항 중 어느 한 항에 있어서,
    상기 타겟 이미지를 참조 이미지 리스트에 추가하기로 결정한 것에 응답하여, 상기 제2 버퍼에서 상기 타겟 이미지의 특징을 버퍼링하는 단계를 더 포함하는 것을 특징으로 하는 타겟 추적 방법.
  28. 타겟 추적 장치로서,
    타겟 이미지의 복수 개의 참조 이미지의 특징을 획득하기 위한 참조 획득 유닛;
    상기 복수 개의 참조 이미지의 특징에 기반하여, 상기 타겟 이미지에서의 추적 타겟의 복수 개의 초기 예측 위치를 결정하기 위한 초기 예측 유닛; 및
    상기 복수 개의 초기 예측 위치에 기반하여, 상기 타겟 이미지에서의 추적 타겟의 최종 위치를 결정하기 위한 최종 위치 유닛을 포함하는 것을 특징으로 하는 타겟 추적 장치.
  29. 제28항에 있어서,
    상기 초기 예측 유닛은,
    상기 타겟 이미지에 대해 특징 추출을 수행하여, 상기 타겟 이미지의 복수 개의 특징을 얻기 위한 특징 추출 모듈; 및
    상기 타겟 이미지의 복수 개의 특징과 상기 복수 개의 참조 이미지의 특징에 기반하여, 상기 타겟 이미지에서의 추적 타겟의 복수 개의 초기 예측 위치를 얻기 위한 위치 예측 모듈을 포함하는 것을 특징으로 하는 타겟 추적 장치.
  30. 제29항에 있어서,
    상기 위치 예측 모듈은, 상기 타겟 이미지의 복수 개의 특징을 상기 복수 개의 참조 이미지의 특징 중의 대응하는 특징에 각각 연결하여, 복수 개의 연결 특징을 얻고; 상기 복수 개의 연결 특징에 기반하여, 상기 타겟 이미지에서의 추적 타겟의 복수 개의 초기 예측 위치를 얻기 위한 것임을 특징으로 하는 타겟 추적 장치.
  31. 제29항 또는 제30항에 있어서,
    상기 특징 추출 모듈은,
    상기 타겟 이미지에 대해 컨볼루션 동작을 실행하여, 중간 특징을 얻기 위한 컨볼루션 모듈; 및
    상기 중간 특징에 대해 복수 개의 관심 영역 정렬 동작을 실행하여, 상기 타겟 이미지의 복수 개의 특징을 얻기 위한 정렬 모듈을 포함하는 것을 특징으로 하는 타겟 추적 장치.
  32. 제31항에 있어서,
    상기 정렬 모듈은, 상기 복수 개의 참조 이미지 중 적어도 하나의 참조 이미지에서의 추적 타겟의 위치에 기반하여, 상기 중간 특징에 대해 관심 영역 정렬 동작을 실행함으로써, 상기 타겟 이미지의 특징을 얻기 위한 것임을 특징으로 하는 타겟 추적 장치.
  33. 제32항에 있어서,
    상기 정렬 모듈은, 상기 복수 개의 참조 이미지 중 적어도 하나의 참조 이미지에서의 추적 타겟에 대응하는 바운딩 박스의 상기 참조 이미지에서의 위치를 관심 영역으로 사용하여 관심 영역 정렬 동작을 수행함으로써, 상기 타겟 이미지의 특징을 얻기 위한 것임을 특징으로 하는 타겟 추적 장치.
  34. 제33항에 있어서,
    상기 정렬 모듈은 또한, 상기 복수 개의 참조 이미지 중 적어도 하나의 참조 이미지에서의 추적 타겟의 바운딩 박스를 제1 기설정된 배수만큼 확대하여, 상기 적어도 하나의 참조 이미지에서의 추적 타겟에 대응하는 바운딩 박스를 얻기 위한 것임을 특징으로 하는 타겟 추적 장치.
  35. 제31항 내지 제34항 중 어느 한 항에 있어서,
    상기 특징 추출 모듈은,
    상기 타겟 이미지에 대해 크롭 처리를 수행하여, 크롭된 이미지를 획득하기 위한 크롭 모듈을 더 포함하며;
    상기 컨볼루션 모듈은, 상기 크롭된 이미지에 대해 컨볼루션 동작을 실행하여, 중간 특징을 얻기 위한 것임을 특징으로 하는 타겟 추적 장치.
  36. 제35항에 있어서,
    상기 크롭 모듈은, 적어도 하나의 제1 이미지에서의 추적 타겟의 위치 정보에 기반하여, 상기 타겟 이미지에 대해 크롭 처리를 수행함으로써, 크롭된 이미지를 얻기 위한 것 - 상기 적어도 하나의 제1 이미지는 상기 타겟 이미지 이전에 위치함 - 임을 특징으로 하는 타겟 추적 장치.
  37. 제36항에 있어서,
    상기 적어도 하나의 제1 이미지는 상기 타겟 이미지의 적어도 하나의 상기 참조 이미지를 포함하는 것을 특징으로 하는 타겟 추적 장치.
  38. 제36항 또는 제37항에 있어서,
    상기 크롭 모듈은,
    상기 적어도 하나의 제1 이미지에서의 추적 타겟의 위치 정보에 기반하여, 상기 크롭된 이미지의 중심점을 결정하기 위한 중심 결정 모듈; 및
    상기 크롭된 이미지의 중심점에 기반하여 상기 타겟 이미지에 대해 크롭 처리를 수행함으로써, 상기 크롭된 이미지를 얻기 위한 크롭 처리 모듈을 포함하는 것을 특징으로 하는 타겟 추적 장치.
  39. 제38항에 있어서,
    상기 크롭 처리 모듈은, 상기 타겟 이미지를 제2 기설정된 배수만큼 확대하여, 확대 처리된 상기 타겟 이미지를 얻고; 상기 크롭된 이미지의 중심점에 기반하여, 상기 확대 처리된 상기 타겟 이미지에 대해 크롭 처리를 수행함으로써, 상기 크롭된 이미지를 얻기 위한 것임을 특징으로 하는 타겟 추적 장치.
  40. 제28항 내지 제39항 중 어느 한 항에 있어서,
    상기 최종 위치 유닛은,
    상기 복수 개의 초기 예측 위치에서의 적어도 하나의 초기 예측 위치와 상기 추적 타겟의 외관 참조 위치 사이의 유사도를 각각 결정하여, 유사도가 제1 기설정된 임계값보다 큰 적어도 하나의 초기 예측 위치를 획득하기 위한 유사도 결정 모듈; 및
    상기 유사도가 제1 기설정된 임계값보다 큰 적어도 하나의 초기 예측 위치에 기반하여, 상기 타겟 이미지에 대응하는 최종 위치를 결정하기 위한 제1 위치 계산 모듈을 포함하는 것을 특징으로 하는 타겟 추적 장치.
  41. 제40항에 있어서,
    상기 제1 위치 계산 모듈은, 상기 유사도가 제1 기설정된 임계값보다 큰 적어도 하나의 초기 예측 위치를 가중 평균하여, 상기 타겟 이미지에 대응하는 최종 위치를 획득하기 위한 것임을 특징으로 하는 타겟 추적 장치.
  42. 제40항 또는 제41항에 있어서,
    상기 유사도 결정 모듈은, 상기 초기 예측 위치에 대응하는 바운딩 박스와 상기 추적 타겟의 외관 참조 위치에 대응하는 바운딩 박스 사이의 IoU에 기반하여, 적어도 하나의 상기 초기 예측 위치와 상기 추적 타겟의 외관 참조 위치 사이의 유사도를 결정하기 위한 것임을 특징으로 하는 타겟 추적 장치.
  43. 제40항 내지 제42항 중 어느 한 항에 있어서,
    상기 최종 위치 유닛은,
    상기 타겟 이미지 중 추적 타겟의 결정된 최종 위치를 제1 버퍼에 저장하기 위한 위치 저장 모듈 - 상기 제1 버퍼는 상기 추적 타겟의 외관 참조 위치를 저장하기 위한 것임 - 을 더 포함하는 것을 특징으로 하는 타겟 추적 장치.
  44. 제28항 내지 제39항 중 어느 한 항에 있어서,
    상기 최종 위치 유닛은,
    상기 복수 개의 초기 예측 위치에서의 적어도 하나의 초기 예측 위치의 신뢰도를 결정하기 위한 신뢰도 결정 모듈; 및
    상기 신뢰도가 제2 기설정된 임계값보다 큰 적어도 하나의 상기 초기 예측 위치에 기반하여, 상기 타겟 이미지에서의 추적 타겟의 최종 위치를 결정하기 위한 제2 위치 계산 모듈을 포함하는 것을 특징으로 하는 타겟 추적 장치.
  45. 제44항에 있어서,
    상기 신뢰도 결정 모듈은, 상기 신뢰도가 제2 기설정된 임계값보다 큰 적어도 하나의 상기 초기 예측 위치를 가중 평균하여, 상기 타겟 이미지에서의 추적 타겟의 최종 위치를 획득하기 위한 것임을 특징으로 하는 타겟 추적 장치.
  46. 제44항 또는 제45항에 있어서,
    상기 신뢰도 결정 모듈은, 신뢰도 평가 네트워크를 이용하여 상기 적어도 하나의 초기 예측 위치를 각각 처리함으로써, 상기 적어도 하나의 초기 예측 위치에 대응하는 신뢰도를 얻기 위한 것임을 특징으로 하는 타겟 추적 장치.
  47. 제46항에 있어서,
    상기 신뢰도 결정 모듈은 또한,
    상기 신뢰도 평가 네트워크를 이용하여 샘플 이미지의 적어도 하나의 초기 예측 위치를 처리함으로써, 적어도 하나의 상기 초기 예측 위치에 대응하는 예측 신뢰도를 얻고;
    상기 샘플 이미지의 태깅 위치에 기반하여, 상기 적어도 하나의 초기 예측 위치의 실제 신뢰도를 결정하며;
    상기 적어도 하나의 초기 예측 위치의 예측 신뢰도 및 실제 신뢰도에 기반하여, 상기 신뢰도 평가 네트워크를 훈련시키기 위한 것임을 특징으로 하는 타겟 추적 장치.
  48. 제28항 내지 제47항 중 어느 한 항에 있어서,
    상기 참조 획득 유닛은, 제2 버퍼로부터 타겟 이미지의 복수 개의 참조 이미지의 특징을 획득하기 위한 것임을 특징으로 하는 타겟 추적 장치.
  49. 제28항 내지 제48항 중 어느 한 항에 있어서,
    상기 타겟 이미지와 복수 개의 상기 참조 이미지 사이는 적어도 하나의 제2 이미지만큼 이격되고; 또는
    상기 복수 개의 참조 이미지는 적어도 2 개의 인접한 이미지 프레임을 포함하고; 또는
    상기 복수 개의 참조 이미지에서의 임의의 2 개의 참조 이미지는 인접하지 않는 것을 특징으로 하는 타겟 추적 장치.
  50. 제28항 내지 제49항 중 어느 한 항에 있어서,
    상기 타겟 이미지에서의 추적 타겟의 최종 위치 및 상기 복수 개의 참조 이미지에서의 추적 타겟의 위치에 기반하여, 상기 타겟 이미지를 참조 이미지 리스트에 추가할지 여부를 결정하기 위한 참조 이미지 결정 유닛을 더 포함하는 것을 특징으로 하는 타겟 추적 장치.
  51. 제50항에 있어서,
    상기 참조 이미지 결정 유닛은,
    상기 타겟 이미지에서의 추적 타겟의 바운딩 박스와 상기 복수 개의 참조 이미지에서의 추적 타겟의 바운딩 박스 사이의 IoU에 기반하여, 상기 타겟 이미지를 참조 이미지 리스트에 추가할지 여부를 결정하기 위한 것임을 특징으로 하는 타겟 추적 장치.
  52. 제51항에 있어서,
    상기 참조 이미지 결정 유닛은,
    타겟 이미지에서의 추적 타겟의 바운딩 박스와 상기 복수 개의 참조 이미지의 추적 타겟의 바운딩 박스 사이의 IoU를 각각 결정하고, 복수 개의 결정된 IoU에 기반하여, 평균 IoU를 획득하기 위한 IoU 결정 모듈; 및
    상기 평균 IoU가 IoU 임계값보다 크거나 같은 것에 응답하여, 상기 타겟 이미지를 참조 이미지 리스트에 추가하기 위한 결정 추가 모듈을 포함하는 것을 특징으로 하는 타겟 추적 장치.
  53. 제28항 내지 제49항 중 어느 한 항에 있어서,
    상기 타겟 이미지와 상기 복수 개의 참조 이미지에서 상기 타겟 이미지에 가장 가까운 참조 이미지 사이가 기설정된 개수의 이미지 프레임만큼 이격되면, 상기 타겟 이미지를 참조 이미지 리스트에 추가하기 위한 참조 리스트 업데이트 유닛을 더 포함하는 것을 특징으로 하는 타겟 추적 장치.
  54. 제50항 내지 제53항 중 어느 한 항에 있어서,
    상기 타겟 이미지를 참조 이미지 리스트에 추가하기로 결정한 것에 응답하여, 상기 제2 버퍼에서 상기 타겟 이미지의 특징을 버퍼링하기 위한 특징 버퍼링 유닛을 더 포함하는 것을 특징으로 하는 타겟 추적 장치.
  55. 전자 기기로서,
    프로세서를 포함하며, 상기 프로세서는 제28항 내지 제54항 중 어느 한 항에 따른 타겟 추적 장치를 포함하는 것을 특징으로 하는 전자 기기.
  56. 전자 기기로서,
    실행 가능 명령어를 저장하기 위한 메모리; 및
    상기 실행 가능 명령어를 실행함으로써 제1항 내지 제27항 중 어느 한 항에 따른 타겟 추적 방법을 완료하기 위해 상기 메모리와 통신하기 위한 프로세서를 포함하는 것을 특징으로 하는 전자 기기.
  57. 컴퓨터 판독 가능 명령어를 저장하기 위한 컴퓨터 저장 매체로서,
    상기 명령어가 프로세서에 의해 실행될 때, 상기 프로세서는 제1항 내지 제27항 중 어느 한 항에 따른 타겟 추적 방법을 실행하는 것을 특징으로 하는 컴퓨터 판독 가능 저장 매체.
  58. 컴퓨터 판독 가능 코드를 포함하는 컴퓨터 프로그램 제품으로서,
    상기 컴퓨터 판독 가능 코드가 기기에서 작동될 때, 상기 기기의 프로세서는 제1항 내지 제27항 중 어느 한 항에 따른 타겟 추적 방법을 실행하는 것을 특징으로 하는 컴퓨터 프로그램 제품.
KR1020207008885A 2018-03-06 2019-02-27 타겟 추적 방법 및 장치, 전자 기기, 저장 매체 KR102366733B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201810182797.XA CN108460787B (zh) 2018-03-06 2018-03-06 目标跟踪方法和装置、电子设备、程序、存储介质
CN201810182797.X 2018-03-06
PCT/CN2019/076354 WO2019170023A1 (zh) 2018-03-06 2019-02-27 目标跟踪方法和装置、电子设备、存储介质

Publications (2)

Publication Number Publication Date
KR20200040885A true KR20200040885A (ko) 2020-04-20
KR102366733B1 KR102366733B1 (ko) 2022-02-23

Family

ID=63217237

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020207008885A KR102366733B1 (ko) 2018-03-06 2019-02-27 타겟 추적 방법 및 장치, 전자 기기, 저장 매체

Country Status (6)

Country Link
US (1) US11216955B2 (ko)
JP (1) JP6999028B2 (ko)
KR (1) KR102366733B1 (ko)
CN (1) CN108460787B (ko)
SG (1) SG11202002622QA (ko)
WO (1) WO2019170023A1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102301239B1 (ko) * 2020-05-07 2021-09-09 에스케이텔레콤 주식회사 지능형 카메라 영상에 대한 프라이버시 마스킹장치 및 방법
KR102512360B1 (ko) * 2022-03-25 2023-03-22 국방과학연구소 이동 표적 추적 시 오포착 방지를 위한 필터 정보 제공 방법 및 이를 이용한 전자 장치
KR20230091380A (ko) * 2021-12-16 2023-06-23 숭실대학교산학협력단 행동인식 기반 위험 상황 감지 시스템 및 방법

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108304758B (zh) * 2017-06-21 2020-08-25 腾讯科技(深圳)有限公司 人脸特征点跟踪方法及装置
WO2019170024A1 (zh) * 2018-03-06 2019-09-12 北京市商汤科技开发有限公司 目标跟踪方法和装置、电子设备、存储介质
CN108460787B (zh) * 2018-03-06 2020-11-27 北京市商汤科技开发有限公司 目标跟踪方法和装置、电子设备、程序、存储介质
US11436717B2 (en) * 2018-04-04 2022-09-06 Panasonic Intellectual Property Management Co., Ltd. Image processing device and image processing method
EP3732631A1 (en) * 2018-05-29 2020-11-04 Google LLC Neural architecture search for dense image prediction tasks
CN109034136B (zh) * 2018-09-06 2021-07-20 湖北亿咖通科技有限公司 图像处理方法、装置、摄像设备及存储介质
US11514585B2 (en) * 2018-09-17 2022-11-29 Nokia Solutions And Networks Oy Object tracking
CN110163889A (zh) * 2018-10-15 2019-08-23 腾讯科技(深圳)有限公司 目标跟踪方法、目标跟踪装置、目标跟踪设备
CN109711241B (zh) * 2018-10-30 2021-07-20 百度在线网络技术(北京)有限公司 物体检测方法、装置与电子设备
US10929986B2 (en) * 2018-12-19 2021-02-23 Fca Us Llc Techniques for using a simple neural network model and standard camera for image detection in autonomous driving
CN111414904B (zh) * 2019-01-08 2023-12-01 北京地平线机器人技术研发有限公司 处理感兴趣区域数据的方法和装置
CN109785385B (zh) * 2019-01-22 2021-01-29 中国科学院自动化研究所 视觉目标跟踪方法及系统
CN110660102B (zh) * 2019-06-17 2020-10-27 腾讯科技(深圳)有限公司 基于人工智能的说话人识别方法及装置、系统
CN115311329B (zh) * 2019-10-11 2023-05-23 杭州云栖智慧视通科技有限公司 一种基于双环节约束的视频多目标跟踪方法
CN112668377A (zh) * 2019-10-16 2021-04-16 清华大学 信息识别系统及其方法
CN111738133A (zh) * 2020-06-17 2020-10-02 北京奇艺世纪科技有限公司 模型训练方法、目标检测方法、装置、电子设备及可读存储介质
CN111931844B (zh) * 2020-08-07 2023-11-28 商汤集团有限公司 图像处理方法及装置、电子设备和存储介质
CN112037257B (zh) * 2020-08-20 2023-09-29 浙江大华技术股份有限公司 一种目标跟踪方法、终端及其计算机可读存储介质
CN112053384B (zh) * 2020-08-28 2022-12-02 西安电子科技大学 基于边界框回归模型的目标跟踪方法
CN112734938A (zh) * 2021-01-12 2021-04-30 北京爱笔科技有限公司 行人位置预测方法、装置、计算机设备和存储介质
KR102308752B1 (ko) * 2021-02-22 2021-10-05 주식회사 에스아이에이 객체 추적 방법 및 장치
CN113139985B (zh) * 2021-03-16 2022-09-16 北京理工大学 消除无人机与地面站通信延迟影响的跟踪目标框选方法
CN112950675A (zh) * 2021-03-18 2021-06-11 深圳市商汤科技有限公司 一种目标跟踪的方法、装置、电子设备及存储介质
CN113470079A (zh) * 2021-07-15 2021-10-01 浙江大华技术股份有限公司 一种落脚区域的输出方法、装置及电子设备
US20230154139A1 (en) * 2021-11-16 2023-05-18 Salesforce.Com, Inc. Systems and methods for contrastive pretraining with video tracking supervision
CN116030397B (zh) * 2023-03-27 2023-08-01 湖南大学 一种基于时序信息交互的腔镜手术视频分割方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101169827A (zh) * 2007-12-03 2008-04-30 北京中星微电子有限公司 一种对图像中的特征点进行跟踪的方法及装置
JP2010145965A (ja) * 2008-12-22 2010-07-01 Fujinon Corp オートフォーカスシステム
US20120120237A1 (en) * 2010-11-12 2012-05-17 Sony Corporation Video processing
JP2012159958A (ja) * 2011-01-31 2012-08-23 Secom Co Ltd 移動物体追跡装置
JP2013021726A (ja) * 2012-10-18 2013-01-31 Canon Inc 被写体追跡装置及びその制御方法
JP2017156886A (ja) * 2016-02-29 2017-09-07 Kddi株式会社 画像間類似度を考慮して物体を追跡する装置、プログラム及び方法

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000113158A (ja) 1998-10-01 2000-04-21 Toshiba Corp 物体追跡装置及びその方法
JP5208893B2 (ja) 2009-09-14 2013-06-12 セコム株式会社 移動物体追跡装置
JP5476955B2 (ja) 2009-12-04 2014-04-23 ソニー株式会社 画像処理装置および画像処理方法、並びにプログラム
JP5528151B2 (ja) * 2010-02-19 2014-06-25 パナソニック株式会社 対象物追跡装置、対象物追跡方法、および対象物追跡プログラム
US9135514B2 (en) * 2010-05-21 2015-09-15 Qualcomm Incorporated Real time tracking/detection of multiple targets
CN103004179B (zh) * 2011-06-29 2015-11-25 奥林巴斯映像株式会社 跟踪装置和跟踪方法
JP2014241505A (ja) 2013-06-11 2014-12-25 ソニー株式会社 撮影装置および撮影方法、テンプレート生成装置およびテンプレート生成方法、並びにプログラム
US10283162B2 (en) * 2014-02-05 2019-05-07 Avatar Merger Sub II, LLC Method for triggering events in a video
US20150369918A1 (en) * 2014-06-20 2015-12-24 Syntronics, Llc Laser alignment and tracking system
JP6525545B2 (ja) 2014-10-22 2019-06-05 キヤノン株式会社 情報処理装置、情報処理方法及びコンピュータプログラム
US9791541B2 (en) * 2014-12-19 2017-10-17 The Boeing Company System and method to improve object tracking using multiple tracking systems
TWI557691B (zh) 2015-09-23 2016-11-11 睿緻科技股份有限公司 監視攝影裝置及其使用的區域式移動偵測方法
CN106709932B (zh) 2015-11-12 2020-12-04 创新先进技术有限公司 一种人脸位置跟踪方法、装置和电子设备
EP4016228A1 (en) 2016-02-26 2022-06-22 SZ DJI Technology Co., Ltd. Systems and methods for visual target tracking
JP6832504B2 (ja) 2016-08-08 2021-02-24 パナソニックIpマネジメント株式会社 物体追跡方法、物体追跡装置およびプログラム
CN106326837B (zh) * 2016-08-09 2019-09-17 北京旷视科技有限公司 对象追踪方法和装置
CN106529587B (zh) 2016-08-26 2019-06-25 北京航空航天大学 基于目标点识别的视觉航向识别方法
CN106909909B (zh) * 2017-03-08 2021-02-02 王华锋 一种基于共享卷积特征的人脸检测与对齐方法
CN107169939A (zh) * 2017-05-31 2017-09-15 广东欧珀移动通信有限公司 图像处理方法及相关产品
CN107562805B (zh) * 2017-08-08 2020-04-03 浙江大华技术股份有限公司 一种以图搜图的方法及装置
CN108090916B (zh) * 2017-12-21 2019-05-07 百度在线网络技术(北京)有限公司 用于跟踪视频中的目标图形的方法和装置
US11068741B2 (en) 2017-12-28 2021-07-20 Qualcomm Incorporated Multi-resolution feature description for object recognition
CN108416799A (zh) 2018-03-06 2018-08-17 北京市商汤科技开发有限公司 目标跟踪方法和装置、电子设备、程序、存储介质
CN108460787B (zh) * 2018-03-06 2020-11-27 北京市商汤科技开发有限公司 目标跟踪方法和装置、电子设备、程序、存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101169827A (zh) * 2007-12-03 2008-04-30 北京中星微电子有限公司 一种对图像中的特征点进行跟踪的方法及装置
JP2010145965A (ja) * 2008-12-22 2010-07-01 Fujinon Corp オートフォーカスシステム
US20120120237A1 (en) * 2010-11-12 2012-05-17 Sony Corporation Video processing
JP2012159958A (ja) * 2011-01-31 2012-08-23 Secom Co Ltd 移動物体追跡装置
JP2013021726A (ja) * 2012-10-18 2013-01-31 Canon Inc 被写体追跡装置及びその制御方法
JP2017156886A (ja) * 2016-02-29 2017-09-07 Kddi株式会社 画像間類似度を考慮して物体を追跡する装置、プログラム及び方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102301239B1 (ko) * 2020-05-07 2021-09-09 에스케이텔레콤 주식회사 지능형 카메라 영상에 대한 프라이버시 마스킹장치 및 방법
KR20210136893A (ko) * 2020-05-07 2021-11-17 에스케이텔레콤 주식회사 지능형 카메라 영상에 대한 프라이버시 마스킹장치 및 방법
KR20230091380A (ko) * 2021-12-16 2023-06-23 숭실대학교산학협력단 행동인식 기반 위험 상황 감지 시스템 및 방법
KR102512360B1 (ko) * 2022-03-25 2023-03-22 국방과학연구소 이동 표적 추적 시 오포착 방지를 위한 필터 정보 제공 방법 및 이를 이용한 전자 장치

Also Published As

Publication number Publication date
CN108460787A (zh) 2018-08-28
JP6999028B2 (ja) 2022-01-18
US11216955B2 (en) 2022-01-04
WO2019170023A1 (zh) 2019-09-12
JP2020534610A (ja) 2020-11-26
SG11202002622QA (en) 2020-04-29
CN108460787B (zh) 2020-11-27
KR102366733B1 (ko) 2022-02-23
US20200219268A1 (en) 2020-07-09

Similar Documents

Publication Publication Date Title
KR102366733B1 (ko) 타겟 추적 방법 및 장치, 전자 기기, 저장 매체
US11783491B2 (en) Object tracking method and apparatus, storage medium, and electronic device
US11455782B2 (en) Target detection method and apparatus, training method, electronic device and medium
US10672131B2 (en) Control method, non-transitory computer-readable storage medium, and control apparatus
EP3673417B1 (en) System and method for distributive training and weight distribution in a neural network
US11270158B2 (en) Instance segmentation methods and apparatuses, electronic devices, programs, and media
KR102292559B1 (ko) 단안 이미지 깊이 추정 방법 및 장치, 기기, 프로그램 및 저장 매체
EP3493106B1 (en) Optimizations for dynamic object instance detection, segmentation, and structure mapping
JP7163372B2 (ja) 目標トラッキング方法及び装置、電子機器並びに記憶媒体
CN111860479A (zh) 光学字符识别方法、装置、电子设备及存储介质
KR102218608B1 (ko) 증강 현실 응용들을 위한 비디오들 내의 실 시간 오버레이 배치
CN112861830A (zh) 特征提取方法、装置、设备、存储介质以及程序产品
Véges et al. Temporal smoothing for 3D human pose estimation and localization for occluded people
US11741611B2 (en) Cyclical object segmentation neural networks
CN109242882B (zh) 视觉跟踪方法、装置、介质及设备
Delibasoglu et al. Motion detection in moving camera videos using background modeling and FlowNet
CN113033439A (zh) 用于数据处理的方法、装置和电子设备
Yu et al. Pedestrian Detection Based on Improved Mask R-CNN Algorithm
Zhao et al. Knowledge graphs meet geometry for semi-supervised monocular depth estimation
Nemcev et al. Modified EM-algorithm for motion field refinement in motion compensated frame interpoliation
CN114202728B (zh) 一种视频检测方法、装置、电子设备及介质
CN113343979B (zh) 用于训练模型的方法、装置、设备、介质和程序产品
Cao et al. Toward Better SSIM Loss for Unsupervised Monocular Depth Estimation
KR20220145791A (ko) 병렬처리 파이프라인을 이용한 다중 dnn 기반 얼굴 인식 방법 및 장치
CN114596516A (zh) 目标跟踪方法、装置、电子设备及计算机可读存储介质

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right