KR20220024986A - 타깃 추적 방법 및 장치, 저장 매체 및 컴퓨터 프로그램 - Google Patents

타깃 추적 방법 및 장치, 저장 매체 및 컴퓨터 프로그램 Download PDF

Info

Publication number
KR20220024986A
KR20220024986A KR1020227002703A KR20227002703A KR20220024986A KR 20220024986 A KR20220024986 A KR 20220024986A KR 1020227002703 A KR1020227002703 A KR 1020227002703A KR 20227002703 A KR20227002703 A KR 20227002703A KR 20220024986 A KR20220024986 A KR 20220024986A
Authority
KR
South Korea
Prior art keywords
target
scene
feature
similarity
scene image
Prior art date
Application number
KR1020227002703A
Other languages
English (en)
Inventor
페이 왕
광치 천
천 첸
Original Assignee
베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드 filed Critical 베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드
Publication of KR20220024986A publication Critical patent/KR20220024986A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/248Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30232Surveillance

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

본 출원에서는 타깃 추적 방법 및 장치, 저장 매체 및 컴퓨터 프로그램을 제공하는 바, 그 중에서, 해당 방법은, 동일한 장면에 대응하는 복수 장의 장면 이미지를 취득하는 것; 상기 복수 장의 장면 이미지 중의 각 장의 장면 이미지에 대하여 특징 추출 처리 및 타깃 부위 검출을 수행하여, 상기 각 장의 장면 이미지의 특징 정보 및 상기 각 장의 장면 이미지 상의 복수의 타깃 부위의 위치를 취득하는 것; 상기 각 장의 장면 이미지의 특징 정보 중 상기 복수의 타깃 부위의 위치에 각각 대응하는 타깃 특징 정보를 취득하는 것; 및 취득된 상기 복수의 타깃 부위의 위치에 각각 대응하는 타깃 특징 정보에 기반하여, 상기 복수 장의 장면 이미지에 나타나는 복수의 동일한 타깃을 결정하는 바, 그 중에서, 각 장의 장면 이미지에는 상기 복수의 동일한 타깃의 일부 또는 전부 타깃이 포함되는 것을 포함한다.

Description

타깃 추적 방법 및 장치, 저장 매체 및 컴퓨터 프로그램
[관련 출원의 교차 인용]
본 출원은 2020년 4월 28일에 제출되고, 출원번호가 202010352365.6이며, 발명의 명칭이 "타깃 추적 방법 및 장치, 저장 매체"인 중국 특허출원의 우선권을 주장하는 바, 당해 모든 내용은 참조로서 본원에 통합된다.
[기술분야]
본 출원은 컴퓨터 시각 분야에 관한 것으로서, 특히 타깃 추적 방법 및 장치, 저장 매체 및 컴퓨터 프로그램에 관한 것이다.
현재, 다중 타깃 추적 기술을 통하여 타깃의 운동 궤적을 분석하는 수요가 날로 증가하고 있다. 다중 타깃 추적을 수행하는 과정에서, 우선 타깃 검출을 통하여 복수의 타깃이 소재하는 위치를 취득하고, 그 후 각 타깃에 대하여 단일 타깃 추적을 수행하여야 한다.
상기 다중 타깃 추적의 처리 시간은 장면 중 타깃의 수량과 선형적으로 관련되어 있다. 예를 들면, 장면 중에 N개의 타깃이 포함되고, 여기에서 N이 자연수이면, 다중 타깃 추적은 N회 단일 타깃 추적의 추리를 수행하여야 하고, 처리 시간이 단일 타깃 추적에 필요한 시간의 N배로 증가한다. N의 값이 클 수록 다중 타깃 추적의 시간이 더욱 길고, 이는 장치가 비교적 높은 연산 능력을 구비할 것을 요구하고 또한 시간 소모가 비교적 길다.
본 출원에서는 타깃 추적 방법 및 장치, 저장 매체 및 컴퓨터 프로그램을 제공한다.
본 출원의 실시예의 제1 방면에 의하면, 타깃 추적 방법을 제공하는 바, 상기 방법은, 동일한 장면에 대응하는 복수 장의 장면 이미지를 취득하는 것; 상기 복수 장의 장면 이미지 중의 각 장의 장면 이미지에 대하여 특징 추출 처리 및 타깃 부위 검출을 수행하여, 상기 각 장의 장면 이미지의 특징 정보 및 상기 각 장의 장면 이미지 상의 복수의 타깃 부위의 위치를 취득하는 것; 상기 각 장의 장면 이미지의 특징 정보 중 상기 복수의 타깃 부위의 위치에 각각 대응하는 타깃 특징 정보를 취득하는 것; 및 취득된 상기 복수의 타깃 부위의 위치에 각각 대응하는 타깃 특징 정보에 기반하여, 상기 복수 장의 장면 이미지에 나타나는 복수의 동일한 타깃을 결정하는 바, 그 중에서, 각 장의 장면 이미지에는 상기 복수의 동일한 타깃의 일부 또는 전부 타깃이 포함되는 것을 포함한다.
일부 선택 가능한 실시예에서, 상기 복수 장의 장면 이미지 중의 각 장의 장면 이미지에 대하여 특징 추출 처리 및 타깃 부위 검출을 수행하여, 상기 각 장의 장면 이미지의 특징 정보 및 상기 각 장의 장면 이미지 상의 복수의 타깃 부위의 위치를 취득하는 것은, 상기 복수 장의 장면 이미지 중의 각 장의 장면 이미지의 제1 특징 맵을 추출하는 것; 상기 각 장의 장면 이미지의 제1 특징 맵 상에서 타깃 부위 검출을 수행하여, 상기 각 장의 장면 이미지 상의 복수의 타깃 부위의 위치를 취득하는 것; 및 상기 각 장의 장면 이미지의 제1 특징 맵에 대하여 특징 추출 처리를 수행하여, 다차원의 제2 특징 맵을 취득하는 것을 포함하며; 상기 각 장의 장면 이미지의 특징 정보 중 상기 복수의 타깃 부위의 위치에 각각 대응하는 타깃 특징 정보를 취득하는 것은, 상기 다차원의 제2 특징 맵 상에서 상기 복수의 타깃 부위의 위치에 각각 대응하는 타깃 특징 벡터를 취득하는 것을 포함한다.
일부 선택 가능한 실시예에서, 상기 취득된 상기 복수의 타깃 부위의 위치에 각각 대응하는 타깃 특징 정보에 기반하여, 상기 복수 장의 장면 이미지에 나타나는 복수의 동일한 타깃을 결정하는 것은, 상기 복수 장의 장면 이미지 중 각 인접된 두 장의 장면 이미지에 각각 대응하는 복수의 타깃 특징 정보를 이용하여, 상기 각 인접된 두 장의 장면 이미지 상 각 타깃 부위 사이의 유사도를 취득하는 것; 및 상기 각 인접된 두 장의 장면 이미지 상 각 타깃 부위 사이의 유사도에 기반하여, 상기 서로 다른 장면 이미지 상에 나타나는 복수의 동일한 타깃을 결정하는 것을 포함한다.
일부 선택 가능한 실시예에서, 상기 각 인접된 두 장의 장면 이미지는 제1 장면 이미지와 제2 장면 이미지이며; 상기 복수 장의 장면 이미지 중 각 인접된 두 장의 장면 이미지에 각각 대응하는 복수의 타깃 특징 정보를 이용하여, 상기 각 인접된 두 장의 장면 이미지 상 각 타깃 부위 사이의 유사도를 취득하는 것은, 제1 장면 이미지 상의 N개의 타깃 특징 벡터 각각과 제2 장면 이미지 상의 M개의 타깃 특징 벡터 사이의 유사도를 결정하는 것 - N과 M은 2보다 크거나 같은 자연수임 -; 및 상기 제1 장면 이미지 상의 N개의 타깃 특징 벡터 각각과 상기 제2 장면 이미지 상의 M개의 타깃 특징 벡터 사이의 상기 유사도에 기반하여, N×M 차원의 유사도 매트릭스를 취득하는 바, 상기 유사도 매트릭스 중 임의의 차원의 값은 상기 제1 장면 이미지의 임의의 제1 타깃 부위와 상기 제2 장면 이미지 중의 임의의 제2 타깃 부위의 유사도를 표시하는 것을 포함한다.
일부 선택 가능한 실시예에서, 상기 각 인접된 두 장의 장면 이미지 상 각 타깃 부위 사이의 유사도에 기반하여, 상기 서로 다른 장면 이미지 상에 나타나는 복수의 동일한 타깃을 결정하는 것은, 상기 유사도 매트릭스에 기반하여, 상기 N개의 타깃 특징 벡터 중의 제1 타깃 특징 벡터 각각과 상기 M개의 타깃 특징 벡터 사이의 유사도 중에서, 유사도 최대치를 결정하는 것; 만일 상기 유사도 최대치가 사전 설정 역치보다 크면, 상기 M개의 타깃 특징 벡터 중에서 상기 유사도 최대치에 대응하는 제2 타깃 특징 벡터를 결정하는 것; 및 상기 제1 장면 이미지 상 상기 제1 타깃 특징 벡터에 대응하는 제1 타깃 부위 소속 타깃과 상기 제2 장면 이미지 상 상기 제2 타깃 특징 벡터에 대응하는 제2 타깃 부위 소속 타깃을 동일한 타깃으로 간주하는 것을 포함한다.
일부 선택 가능한 실시예에서, 복수 장의 장면 이미지 중의 각 장의 장면 이미지에 대하여 특징 추출 처리 및 타깃 부위 검출을 수행하여, 상기 각 장의 장면 이미지의 특징 정보 및 상기 각 장의 장면 이미지 상의 복수의 타깃 부위의 위치를 취득하는 것은, 특징 검출 모델의 백본 네트워크를 통하여 상기 복수 장의 장면 이미지 중의 각 장의 장면 이미지의 제1 특징 맵을 추출하는 것; 상기 특징 검출 모델의 부위 검출 브랜치를 통하여, 상기 각 장의 장면 이미지의 제1 특징 맵 상에서 타깃 부위 검출을 수행하여, 상기 각 장의 장면 이미지 상의 복수의 타깃 부위의 위치를 취득하는 것; 및 상기 특징 검출 모델의 특징 추출 브랜치를 통하여, 상기 각 장의 장면 이미지의 제1 특징 맵에 대하여 특징 추출 처리를 수행하여, 다차원의 제2 특징 맵을 취득하는 것을 포함한다.
일부 선택 가능한 실시예에서, 상기 방법은, 동일한 장면에 대응하는 복수 장의 샘플 장면 이미지를 초기 신경망 모델에 입력하여, 상기 초기 신경망 모델이 출력하는 각 장의 샘플 장면 이미지 상 복수의 타깃 부위의 위치에 각각 대응하는 샘플 특징 벡터를 취득하는 것; 상기 각 장의 샘플 장면 이미지 상 이미 라벨링된 복수의 타깃 부위에 각각 대응하는 타깃 식별자에 기반하여, 각 인접된 두 장의 샘플 장면 이미지 상, 동일한 상기 타깃 식별자의 상기 타깃 부위의 위치에 대응하는 상기 샘플 특징 벡터 사이의 제1 유사도를 결정하며, 및/또는 서로 다른 상기 타깃 식별자의 상기 타깃 부위의 위치에 대응하는 상기 샘플 특징 벡터 사이의 제2 유사도를 결정하는 것; 및 상기 각 장의 샘플 장면 이미지 상 이미 라벨링된 복수의 타깃 부위에 각각 대응하는 타깃 식별자에 기반하여, 상기 제1 유사도와 상기 제2 유사도 중 적어도 하나에 기반하여, 상기 초기 신경망 모델에 대하여 감독 훈련을 수행하여 상기 특징 검출 모델을 취득하는 것을 더 포함한다.
일부 선택 가능한 실시예에서, 상기 각 장의 샘플 장면 이미지 상 이미 라벨링된 복수의 타깃 부위에 각각 대응하는 타깃 식별자에 기반하여, 상기 제1 유사도와 상기 제2 유사도 중 적어도 하나에 기반하여, 상기 초기 신경망 모델에 대하여 감독 훈련을 수행하여 상기 특징 검출 모델을 취득하는 것은, 제1 유사도 참조값과 상기 제1 유사도 사이의 차이를 제1 손실 함수로 하는 것 - 상기 제1 유사도 참조값은 상기 각 인접된 두 장의 샘플 장면 이미지 상에 이미 라벨링된 같은 타깃 식별자의 타깃 부위에 대응하는 샘플 특징 벡터 사이의 유사도 참조값임 -; 제2 유사도 참조값과 상기 제2 유사도 사이의 차이를 제2 손실 함수로 하는 것 - 상기 제2 유사도 참조값은 상기 각 인접된 두 장의 샘플 장면 이미지 상에 이미 라벨링된 다른 타깃 식별자의 타깃 부위에 대응하는 샘플 특징 벡터 사이의 유사도 참조값임 -; 및 상기 제1 손실 함수와 상기 제2 손실 함수 중 적어도 하나에 기반하여, 상기 초기 신경망 모델에 대하여 훈련을 수행하여 상기 특징 검출 모델을 취득하는 것을 포함한다.
일부 선택 가능한 실시예에서, 상기 방법은, 상기 복수의 장면 이미지 상에 나타나는 복수의 동일한 타깃 중 적어도 하나의 타깃의 사전 설정된 시간대 내의 운동 궤적이 타깃 운동 궤적에 부합되는지 여부를 결정하는 것을 더 포함한다.
일부 선택 가능한 실시예에서, 상기 복수 장의 장면 이미지는 교실 장면에 대응되고, 상기 타깃은 티칭 객체를 포함하며, 상기 타깃 운동 궤적은 티칭 임무 중 상기 티칭 객체에 대하여 지정한 적어도 한 가지 운동 궤적을 포함한다.
본 출원의 실시예의 제2 방면에 의하면, 타깃 추적 장치를 제공하는 바, 상기 장치는, 동일한 장면에 대응하는 복수 장의 장면 이미지를 취득하는 취득 모듈; 상기 복수 장의 장면 이미지 중의 각 장의 장면 이미지에 대하여 특징 추출 처리 및 타깃 부위 검출을 수행하여, 상기 각 장의 장면 이미지의 특징 정보 및 상기 각 장의 장면 이미지 상의 복수의 타깃 부위의 위치를 취득하는 처리 모듈; 상기 각 장의 장면 이미지의 특징 정보 중 상기 복수의 타깃 부위의 위치에 각각 대응하는 타깃 특징 정보를 취득하는 특징 정보 결정 모듈; 취득된 상기 복수의 타깃 부위의 위치에 각각 대응하는 타깃 특징 정보에 기반하여, 상기 복수 장의 장면 이미지에 나타나는 복수의 동일한 타깃을 결정하는 바, 그 중에서, 각 장의 장면 이미지에는 상기 복수의 동일한 타깃의 일부 또는 전부 타깃이 포함되는 타깃 결정 모듈을 포함한다.
본 출원의 실시예의 제3 방면에 의하면, 컴퓨터 판독가능 저장 매체를 제공하는 바, 상기 저장 매체에는 컴퓨터 프로그램이 저장되어 있고, 상기 컴퓨터 프로그램은 제1 방면의 어느 한 상기 타깃 추적 방법을 실행하기 위한 것이다.
본 출원의 실시예의 제4 방면에 의하면, 타깃 추적 장치를 제공하는 바, 프로세서; 상기 프로세서가 실행 가능한 명령을 저장하는 기억장치를 포함하며; 그 중에서, 상기 프로세서는 상기 기억장치에 저장된 실행 가능한 명령을 호출할 때, 제1 방면의 어느 한 상기 타깃 추적 방법을 구현하도록 구성된다.
본 출원의 실시예의 제5 방면에 의하면, 컴퓨터 프로그램을 제공하는 바, 그 중에서 상기 컴퓨터 프로그램이 프로세서에 기반하여 실행될 때, 제1 방면의 어느 한 항의 상기 타깃 추적 방법을 구현할 수 있다.
본 출원의 실시예에서 제공하는 기술적 방안은 하기 유익한 효과를 가질 수 있다.
본 출원의 실시예에서, 인접된 두 장의 장면 이미지 중에서 각각 복수의 타깃을 결정한 후, 앞 장면 이미지 상의 각 타깃에 대하여 뒤 장면 이미지에 포함된 복수의 타깃 중에서 각각 단일 타깃 추적 추리를 수행할 필요가 없이, 단일 장면 이미지에 대하여 단일 프레임 추정을 수행하여 복수의 타깃 부위의 위치에 대응하는 타깃 특징 정보를 취득하고, 단일 프레임 추정 결과에 대하여 매칭을 수행하여 각 인접된 두 장의 장면 이미지 중의 복수의 동일한 타깃을 취득하여, 다중 타깃 추적의 목적을 구현하고, 또한 현재 장면 중에 복수의 타깃이 포함된다 할지라도, 전체 장면 이미지에 대하여 추정을 수행하기 때문에, 전체 다중 타깃 추적 과정의 시간이 장면 이미지 중에 포함된 타깃의 수량과 무관하고, 타깃 수량이 증가함에 따라 하나하나씩 단일 타깃 추적 추리를 수행하는 추적 시간이 증가하지 않아, 연산 자원을 크게 절약하고, 다중 타깃 추적의 시간을 단축시키며, 다중 타깃 추적의 검출 효율을 효과적으로 향상시킨다.
위에서의 일반적인 설명과 차후의 상세한 설명은 단지 예시적이고 해석적인 것이며, 본 출원을 제한할 수 없는 것을 이해해야 한다.
이곳의 도면은 명세서에 포함되고 또한 본 명세서의 일부분을 구성하며, 본 출원에 부합되는 실시예를 도시하고, 또한 명세서와 함께 본 출원의 원리를 해석한다.
도 1은 본 출원의 일 예시적 실시예에 기반하여 도시되는 일 타깃 추적 방법의 흐름도이다.
도 2는 본 출원의 일 예시적 실시예에 기반하여 도시되는 다른 일 타깃 추적 방법의 흐름도이다.
도 3은 본 출원의 일 예시적 실시예에 기반하여 도시되는 다른 일 타깃 추적 방법의 흐름도.
도 4는 본 출원의 일 예시적 실시예에 기반하여 도시되는 다른 일 타깃 추적 방법의 흐름도이다.
도 5는 본 출원의 일 예시적 실시예에 기반하여 도시되는 다른 일 타깃 추적 방법의 흐름도이다.
도 6은 본 출원의 일 예시적 실시예에 기반하여 도시되는 일 특징 검출 모델의 구조 모식도이다.
도 7은 본 출원의 일 예시적 실시예에 기반하여 도시되는 일 다중 타깃 추적의 추정 과정 모식도이다.
도 8은 본 출원의 일 예시적 실시예에 기반하여 도시되는 다른 일 타깃 추적 방법의 흐름도이다.
도 9는 본 출원의 일 예시적 실시예에 기반하여 도시되는 일 특징 검출 모델 훈련 장면의 모식도이다.
도 10은 본 출원의 일 예시적 실시예에 기반하여 도시되는 다른 일 타깃 추적 방법의 흐름도이다.
도 11은 본 출원의 일 예시적 실시예에 기반하여 도시되는 일 타깃 추적 장치의 블록도이다.
도 12는 본 출원의 일 예시적 실시예에 기반하여 도시되는 타깃 추적 장치를 위한 일 구조도이다.
여기에서는 상세하게 예시적 실시예를 설명할 것이며, 예시는 도면에 표시되어 있다. 아래의 설명이 도면과 연관될 때, 다른 표시가 있는 외, 다른 도면 중의 같은 숫자는 같거나 유사한 요소를 표시한다. 하기 예시적 실시예에서 설명하는 실시 방식은 본 출원과 일치한 모든 실시 방식을 대표하는 것이 아니다. 반대로, 이는 단지 특허청구범위에 상세하게 기재된, 본 출원의 일부 방면과 일치한 장치와 방법의 예일 뿐이다.
본 출원에 사용된 용어는 단지 특정 실시예를 설명하기 위한 목적이고, 본 출원을 제한하는 것이 아닌 것을 이해할 것이다. 본 출원과 첨부된 특허청구범위에 사용된 단수 형식의 "일", "상기"와 "해당"도 문맥 상에서 명확하게 기타 뜻을 표시하지 않은 한, 복수의 형식이 포함된다. 또한 본 출원에 사용된 용어 "및/또는"은 하나 또는 복수의 관련된 나열 항목을 포함하는 임의의 또는 모든 가능한 조합을 가리키는 것을 이해할 것이다.
본 출원이 용어 제1, 제2, 제3 등을 사용하여 여러 가지 정보를 설명할 수 있지만, 이러한 정보는 이러한 용어의 제한을 받지 않는다. 이러한 용어는 단지 동일한 유형의 정보를 서로 구분하기 위한 것이다. 예를 들면, 본 출원의 범위를 벗어나지 않는 경우, 제1 정보는 또한 제2 정보라 칭할 수 있고, 이와 유사하게, 제2 정보도 또한 제1 정보라 칭할 수 있다. 비록 문맥에 따라 결정되기는 하지만, 여기에서 사용되는 단어 "만일"은 "... 때" 또는 "... 할 때" 또는 "... 결정한 것에 응답하여"로 해석될 수 있다.
본 출원의 실시예는 다중 타깃 추적 방안을 제공하는 바, 예시적으로 서로 다른 장면에서의 단말 장치에 적용될 수 있다. 서로 다른 장면은 교실, 감시기가 배치된 지점 또는 기타 다중 타깃에 대하여 추적이 필요한 실내 또는 실외 장면을 포함하나 이에 제한되지 않는다. 단말 장치는 카메라를 구비한 임의의 단말 장치를 사용하거나, 또는 단말 장치도 카메라 장치를 외부에 연결 시킬 수 있다. 단말 장치는 동일한 장면에서 선후로 복수 장의 장면 이미지를 수집하거나, 또는 직접 비디오 스트림을 수집하고, 해당 비디오 스트림 중의 복수 장의 이미지를 상기 복수 장의 장면 이미지로 할 수 있다.
나아가서, 단말 장치는 취득된 복수 장의 장면 이미지 중의 각 장의 장면 이미지에 대하여 특징 추출 처리 및 타깃 부위 검출을 수행하고, 각 장의 장면 이미지의 특징 정보 및 상기 각 장의 장면 이미지 상의 복수의 타깃 부위의 위치에 기반하여, 각 장의 장면 이미지의 특징 정보 중 복수의 타깃 부위의 위치에 각각 대응하는 타깃 특징 정보를 취득하여, 복수 장의 장면 이미지에 나타나는 복수의 동일한 타깃을 결정한다.
예를 들면 교실에서, 단말 장치는 교실 내에 배치된 카메라가 구비된 티칭 멀티미디어 장치를 사용할 수 있는 바, 티칭 프로젝터, 교실 내의 모니터링 장치 등을 포함하나 이에 제한되지 않는다. 단말 장치는 교실 중의 복수 장의 장면 이미지를 취득하고, 상기 복수 장의 장면 이미지 중의 각 장의 장면 이미지에 대하여 특징 추출 처리 및 타깃 부위 검출을 수행하여, 상기 각 장의 장면 이미지의 특징 정보 및 상기 각 장의 장면 이미지 상의 복수의 타깃 부위의 위치를 취득한다. 상기 각 장의 장면 이미지의 특징 정보 중 상기 복수의 타깃 부위의 위치에 각각 대응하는 타깃 특징 정보를 취득하여, 상기 복수 장의 장면 이미지에 나타나는 복수의 동일한 타깃을 결정하여, 다중 타깃 추적의 목적을 구현한다. 해당 장면에서의 타깃은 티칭 객체, 예를 들면 학생을 포함할 수 있으나 이에 제한되지 않고, 타깃 부위는 안면 부위와 인체 부위를 포함하나 이에 제한되지 않는다.
또 예를 들면, 지하철 또는 기차역에 하나 또는 복수의 감시 카메라를 배치하고, 감시 카메라를 통하여 지하철 또는 기차역의 복수 장의 장면 이미지를 취득할 수 있다. 해당 장면에서의 타깃은 승객, 승객이 휴대한 트렁크, 직원을 포함할 수 있으나 이에 제한되지 않는다. 본 출원의 실시예에서 제공하는 방안을 사용하면, 지하철역 또는 기차역 등 인구 유동량이 많은 장면에서, 복수 장의 장면 이미지에 나타나는 복수의 동일한 타깃을 결정하여, 다중 타깃 추적의 목적을 구현할 수 있다.
예시적으로, 본 출원의 실시예에서 제공하는 다중 타깃 추적 방안은 또한 서로 다른 장면에서의 클라우드 서버에 적용할 수 있고, 해당 클라우드 서버는 외부 카메라를 구비할 수 있으며, 외부 카메라가 동일한 장면에서 선후로 복수 장의 장면 이미지를 수집하거나, 또는 직접 비디오 스트림을 수집하고, 해당 비디오 스트림 중의 복수 장의 이미지를 상기 복수 장의 장면 이미지로 할 수 있다. 수집한 장면 이미지는 라우터 또는 게이트웨이를 통하여 클라우드 서버로 송신할 수 있고, 클라우드 서버가 각 장의 장면 이미지에 대하여 특징 추출 처리 및 타깃 부위 검출을 수행하고, 각 장의 장면 이미지의 특징 정보 및 상기 각 장의 장면 이미지 상의 복수의 타깃 부위의 위치를 취득하여, 상기 각 장의 장면 이미지의 특징 정보 중 상기 복수의 타깃 부위의 위치에 각각 대응하는 타깃 특징 정보를 취득하고, 나아가서 상기 복수 장의 장면 이미지에 나타나는 복수의 동일한 타깃을 결정한다.
예를 들면, 외부 카메라를 교실에 설치하고, 외부 카메라가 교실 내에서 복수 장의 장면 이미지를 수집하며, 라우터 또는 게이트웨이를 통하여 클라우드 서버로 송신하고, 클라우드 서버가 상기 타깃 추적 방법을 실행한다.
본 출원의 실시예에서, 또한 단말 장치 또는 클라우드 서버를 통하여 복수 장의 장면 이미지에 나타나는 복수의 동일한 타깃을 결정한 후, 동일한 식별 박스를 사용하여 동일한 타깃에 대하여 식별을 수행하고 또한 식별 후의 장면 이미지를 출력할 수 있다. 예를 들면 출력된 인접된 두 장의 장면 이미지 상에서, 적색 식별 박스를 사용하여 해당 장면 중의 타깃 1을 식별하고, 녹색 식별 박스를 사용하여 해당 장면 중의 타깃 2를 식별하며, 남색 식별 박스를 사용하여 해당 장면 중의 타깃3을 식별하는 등이며, 이로써 현재 장면에서의 복수의 동일한 타깃을 더욱 잘 표시할 수 있다. 또는 식별 박스에 대응하는 타깃 식별을 통하여 같거나 다른 타깃을 구분할 수도 있는 바, 예를 들면, 출력된 한 장의 장면 이미지 상에 3개 식별 박스가 포함되고, 각각 대응하는 타깃 식별이 1, 2와 3이며, 이와 인접된 장면 이미지 상에 2개 식별 박스가 포함되고, 각각 대응하는 타깃 식별이 1과 3이면, 이 두 장의 장면 이미지 상 타깃 식별이 1인 식별 박스가 동일한 타깃에 대응되고, 타깃 식별이 3인 식별 박스도 동일한 타깃에 대응되며, 타깃 식별이 1과 3인 식별 박스는 각각 서로 다른 타깃에 대응된다.
또한 단말 장치 또는 클라우드 서버를 통하여 복수의 동일한 타깃 중 적어도 하나의 타깃의 사전 설정된 시간대 내의 운동 궤적을 결정하고, 해당 운동 궤적이 타깃 운동 궤적에 부합되는지 여부를 분석할 수도 있다.
예를 들면, 현재 장면이 교실이고, 타깃이 티칭 객체를 포함하면, 타깃 운동 궤적은 티칭 임무 중 상기 티칭 객체에 대하여 지정한 적어도 한 가지 운동 궤적, 예를 들면 현재 소재하는 위치로부터 선생님이 지정한 기타 위치로 이동하는 것을 포함할 수 있으나 이에 제한되지 않고, 기타 위치는 교단, 칠판 또는 기타 학생들이 소재하는 위치일 수 있으며, 또는 타깃 운동 궤적은 또한 동일한 위치에 처하는 것을 포함할 수 있다. 선생님은 복수의 티칭 객체의 운동 궤적에 기반하여 티칭 작업을 더 잘 수행할 수 있다.
또 예를 들면, 현재 장면이 감시기를 배치한 지하철역 또는 기차역인 것을 예로 들면, 타깃은 승차 인원을 포함하나 이에 제한되지 않고, 이 경우 타깃 운동 궤적은 지정된 위험 운동 궤적 또는 불법 운동 궤적, 예를 들면 플랫폼으로부터 레일이 소재하는 위치로 이동하는 것, 개찰기의 상방 또는 하방으로 이동하는 것 등이 포함될 수 있으나 이에 제한되지 않는다. 직원은 승차 인원의 운동 궤적에 기반하여 역 관리를 더 잘 수행하여, 위험 행위 또는 무임승차 행위의 발생을 방지할 수 있다.
상기한 것은 단지 본 출원에 적용되는 장면에 대하여 예시적 설명을 수행한 것일 뿐, 기타 빠르게 동작 유형 식별을 수행하여야 하는 실내 또는 장면 역시 본 출원의 보호 범위에 속한다.
예를 들면 도 1에 도시된 바와 같이, 도 1은 본 출원의 일 예시적 실시예에 기반하여 도시하는 일 타깃 추적 방법으로서, 하기 단계를 포함한다.
101 단계에서, 동일한 장면에 대응하는 복수 장의 장면 이미지를 취득한다.
본 출원의 실시예에서, 동일한 장면에서 선후로 복수 장의 장면 이미지를 수집하거나, 또는 비디오 스트림을 수집하고, 비디오 스트림 중의 복수 장의 이미지를 복수 장의 장면 이미지로 할 수 있다. 본 출원의 장면은 다중 타깃 추적을 수행할 필요가 있는 임의의 장면, 예를 들면 교실, 감시기가 배치된 지점 등을 포함하나 이에 제한되지 않는다.
102 단계에서, 상기 복수 장의 장면 이미지 중의 각 장의 장면 이미지에 대하여 특징 추출 처리 및 타깃 부위 검출을 수행하여, 상기 각 장의 장면 이미지의 특징 정보 및 상기 각 장의 장면 이미지 상의 복수의 타깃 부위의 위치를 취득한다.
본 출원의 실시예에서, 각 장의 장면 이미지에 대하여 특징 추출을 수행한다는 것은 각 장의 장면 이미지로부터 특징 정보를 추출하는 것을 가리키고, 해당 특징 정보는 색상 특징, 무늬 특징, 형상 특징 등을 포함할 수 있으나 이에 제한되지 않는다. 색상 특징은 일종 전역 특징으로서, 이미지에 대응하는 객체의 표면 색상 속성을 기술하며; 무늬 특징도 일종 전역 특징이고, 이는 이미지에 대응하는 객체의 표면 무늬 속성을 기술하며; 형상 특징은 두 가지 유형의 표시 방법이 있는 바, 한 가지 유형은 윤곽 특징이고, 다른 한 가지 유형은 영역 특징이며, 이미지의 윤곽 특징은 주로 객체의 외부 경계에 대한 것이고, 이미지의 영역 특징은 이미지 영역의 형상에 관한 것이다.
본 출원의 실시예에서, 하나의 타깃 부위가 하나의 타깃에 대응되지만, 제한성을 갖고 있는 것이 아니며, 복수의 타깃 부위가 하나의 타깃에 대응될 수도 있다. 타깃 부위는 안면 부위 및/또는 인체 부위를 포함할 수 있으나 이에 제한되지 않고, 인체 부위는 인물의 전체 인체 또는 인체의 어느 지정된 부위, 예를 들면 손, 다리 등을 포함할 수 있으나 이에 제한되지 않는다. 타깃 부위의 위치는 적어도 해당 타깃 부위의 식별 박스의 중심 위치를 통하여 표시할 수 있는 바, 예를 들면 타깃 부위에 안면 부위가 포함되면, 타깃 부위의 위치는 안면 식별 박스의 중심 위치를 통하여 표시할 수 있다. 해당 타깃 부위의 식별 박스는 예를 들면 해당 타깃 부위의 외접 직사각형 박스로 구현될 수 있는 등이다.
103 단계에서, 상기 각 장의 장면 이미지의 특징 정보 중 상기 복수의 타깃 부위의 위치에 각각 대응하는 타깃 특징 정보를 취득한다.
본 출원의 실시예에서, 각 장의 장면 이미지 상에 복수의 타깃 부위를 포함하고, 취득된 각 장의 장면 이미지의 특징 정보에 기반하여, 타깃 부위를 포함하는 영역의 픽셀에 대하여 특징 추출을 수행하여, 복수의 타깃 부위의 위치에 각각 대응하는 타깃 특징 정보를 결정한다. 예시적으로, 컨볼루션 처리 등을 통하여, 각 장의 장면 이미지의 특징 정보 중 각 타깃 부위의 영역에 포함된 복수의 픽셀과 각각 대응하는 타깃 특징 정보를 취득한다.
104 단계에서, 취득된 상기 복수의 타깃 부위의 위치에 각각 대응하는 타깃 특징 정보에 기반하여, 상기 복수 장의 장면 이미지에 나타나는 복수의 동일한 타깃을 결정하는 바, 그 중에서, 각 장의 장면 이미지에는 상기 복수의 동일한 타깃의 일부 타깃 또는 전부 타깃이 포함된다.
상기 실시예에서, 각 장의 장면 이미지 상에서 복수의 타깃 부위의 위치에 대응하는 타깃 특징 정보를 취득하고, 상기 복수 장의 장면 이미지의 이러한 타깃 특징 정보에 대하여 매칭을 수행하는 것을 통하여, 상기 복수 장의 장면 이미지에 나타나는 복수의 동일한 타깃을 결정할 수 있다.
상기 실시예에서, 인접된 두 장의 장면 이미지 중에서 각각 복수의 타깃을 결정한 후, 앞 장면 이미지 상의 각 타깃에 대하여 뒤 장면 이미지에 포함된 복수의 타깃 중에서 각각 단일 타깃 추적 추리를 수행할 필요가 없으며; 단일 장면 이미지에 대하여 단일 프레임 추정을 수행하여 복수의 타깃 부위의 위치에 대응하는 타깃 특징 정보를 취득하고, 취득된 각 인접된 두 장의 장면 이미지의 단일 프레임 추정 결과에 대하여 매칭을 수행하는 것을 통하여, 각 인접된 두 장의 장면 이미지 중의 복수의 동일한 타깃을 취득하여, 다중 타깃 추적의 목적을 구현한다. 현재 장면 중에 복수의 타깃이 포함된다 할지라도, 전체 장면 이미지에 대하여 추정을 수행하기 때문에, 전체 다중 타깃 추적 과정의 시간이 장면 이미지 중에 포함된 타깃의 수량과 무관하고, 타깃 수량이 증가함에 따라 하나하나씩 단일 타깃 추적 추리를 수행하는 추적 시간이 증가하지 않아, 연산 자원을 크게 절약하고, 다중 타깃 추적의 시간을 단축시키며, 효과적으로 다중 타깃 추적의 검출 효율을 향상시킨다.
일부 선택 가능한 실시예에서, 예를 들면 도 2에 도시된 바와 같이, 102 단계는 하기 단계를 포함할 수 있다.
102-1 단계에서, 상기 복수 장의 장면 이미지 중의 각 장의 장면 이미지의 제1 특징 맵을 추출한다.
본 출원의 실시예에서, 사전 훈련된 신경망 모델을 통하여 각 장의 장면 이미지의 이미지 특징을 추출하여 제1 특징 맵을 취득할 수 있다. 해당 신경망 모델은 비주얼 지오메트리 그룹 네트워크(Visual Geometry Group Network, VGG Net) 등을 사용할 수 있으나 이에 제한되지 않는다.
102-2 단계에서, 상기 각 장의 장면 이미지의 제1 특징 맵 상에서 타깃 부위 검출을 수행하여, 상기 각 장의 장면 이미지 상의 복수의 타깃 부위의 위치를 취득하며; 또한 상기 각 장의 장면 이미지의 제1 특징 맵에 대하여 특징 추출 처리를 수행하여, 다차원의 제2 특징 맵을 취득한다.
본 출원의 실시예에서, 타깃 부위는 안면 부위 및/또는 인체 부위를 포함할 수 있다. 영역 예측 네트워크(Region Proposal Network, RPN)를 통하여, 각 장의 장면 이미지의 제1 특징 맵 상에서, 안면 부위 및/또는 인체 부위 검출을 수행하여, 안면 부위에 대응하는 안면 영역 및/또는 인체 부위에 대응하는 인체 영역을 결정할 수 있다. 그 중에서, 안면 영역은 안면 식별 박스를 통하여 식별할 수 있고, 인체 영역은 인체 식별 박스를 통하여 식별할 수 있다. 예시적으로, 안면 인식 박스의 중심 위치를 안면 부위의 위치로 할 수 있다. 마찬가지로, 인체 인식 박스의 중심 위치를 인체 부위의 위치로 할 수 있다.
나아가서, 또한 각 장의 장면 이미지의 제1 특징 맵에 대하여 특징 추출 처리를 수행하고, 제1 특징 맵에 포함된 복수 유형의 특징 정보를 서로 다른 채널을 통하여 추출하여, 다차원의 제2 특징 맵을 취득할 수 있다. 예시적으로, 제2 특징 맵의 사이즈사이즈는 제1 특징 맵의 사이즈와 같을 수 있고, 또한 제2 특징 맵의 차원 값은 각 장의 장면 이미지에 대응하는 사전 설정 채널 수이다.
상응하게, 103 단계는,
상기 다차원의 제2 특징 맵 상에서 상기 복수의 타깃 부위의 위치에 각각 대응하는 타깃 특징 벡터를 취득하는 것을 포함할 수 있다.
본 출원의 실시예에서, 타깃 특징 정보는 어느 한 차원의 제2 특징 맵에 포함된 복수의 타깃 부위의 영역의 각 영역 중의 복수의 픽셀에 각각 대응하는 특징 정보를 표시하기 위한 것이다. 그 중에서, 타깃 부위는 안면 부위 및/또는 인체 부위를 포함할 수 있다.
어느 한 차원의 제2 특징 맵에 포함된 복수의 타깃 부위의 영역에서, 임의의 픽셀에 대응하는 특징 정보는 모두 하나의 1차원의 특징 벡터를 구성할 수 있고, 차후 유사도 계산의 편리를 위하여, 이러한 특징 벡터 중에서 하나 또는 복수의 특징 벡터를 선택하여 해당 타깃 부위의 영역의 특징 정보, 즉 타깃 특징 정보를 표시할 수 있다. 본 출원의 실시예에서, 타깃 부위의 위치의 픽셀에 대응하는 특징 벡터를 선택하고, 해당 특징 벡터를 해당 차원의 제2 특징 맵 상 타깃 부위의 위치에 대응하는 타깃 특징 벡터로 할 수 있다. 그 중에서, 타깃 부위의 위치는 안면 식별 박스의 중심 위치 및/또는 인체 식별 박스의 중심 위치를 포함할 수 있다.
나아가서, 차후 타깃 부위 매칭의 정확도를 향상시키기 위하여, 다차원의 제2 특징 맵 중 적어도 한 차원의 제2 특징 맵에 대하여, 복수의 타깃 부위의 위치의 픽셀에 대응하는 특징 정보를 취득하여, 상기 복수의 타깃 부위의 위치에 각각 대응하는 타깃 특징 벡터를 취득할 수 있다. 예시적으로, 각 차원의 제2 특징 맵에 대하여 모두 복수의 타깃 부위의 위치에 각각 대응하는 타깃 특징 벡터를 취득할 수 있어, 타깃 특징 벡터의 차원 값과 제2 특징 맵의 차원 값이 같도록 한다. 예를 들면, 제2 특징 맵의 차원 값이 C이면, 타깃 특징 벡터의 차원 값도 C이다.
상기 실시예에서, 전체 장면 이미지에 대하여 순차적으로 특징 추출, 타깃 부위 검출을 수행하고 또한 복수의 타깃 부위의 위치에 각각 대응하는 타깃 특징 벡터를 결정하고, 전반 과정은 단일 장면 이미지에 대하여 수행한 단일 프레임 추정이기 때문에, 그 중에 포함된 타깃의 수량의 다소와 무관하며; 차후 각 인접된 두 장의 장면 이미지 상의 복수의 타깃 위치에 각각 대응하는 타깃 특징 벡터에 대하여 매칭을 수행하여, 각각 단일 타깃 추적 추리를 수행할 필요가 없고, 장면 이미지 상에 포함된 타깃 수량이 비교적 많다 할지라도, 1회적으로 매칭 과정을 완성할 수 있다. 본 출원의 타깃 추적 방법은 장면 이미지 중의 타깃의 수량과 무관하고, 타깃 수량이 증가함에 따라 추적 시간이 증가하지 않아, 연산 자원을 크게 절약하고, 다중 타깃 추적의 시간을 단축시키며, 효과적으로 다중 타깃 추적의 검출 효율을 향상시킨다.
일부 선택 가능한 실시예에서, 예를 들면 도 3에 도시된 바와 같이, 104 단계는 하기 단계를 포함할 수 있다.
104-1 단계에서, 상기 복수 장의 장면 이미지 중 각 인접된 두 장의 장면 이미지에 각각 대응하는 상기 복수의 타깃 특징 정보를 이용하여, 상기 각 인접된 두 장의 장면 이미지 상 각 타깃 부위 사이의 유사도를 취득한다.
본 출원의 실시예에서, 이미 각 장의 장면 이미지의 특징 정보 중 상기 복수의 타깃 부위에 대응하는 복수의 타깃 특징 정보를 결정하였고, 각 인접된 두 장의 장면 이미지에 각각 대응하는 복수의 타깃 특징 정보를 이용하여 유사도 계산을 수행하여, 각 인접된 두 장의 장면 이미지 상 각 타깃 부위 사이의 유사도를 취득할 수 있다.
104-2 단계에서, 상기 각 인접된 두 장의 장면 이미지 상 각 타깃 부위 사이의 유사도에 기반하여, 상기 서로 다른 장면 이미지 상에 나타나는 복수의 동일한 타깃을 결정한다.
본 출원의 실시예에서, 각 인접된 두 장의 장면 이미지 상 유사도가 가장 큰 타깃 부위 소속의 타깃을 서로 다른 장면 이미지 상에 나타나는 동일한 타깃으로 할 수 있다.
상기 실시예에서, 각 인접된 두 장의 장면 이미지 상 각 타깃 부위 사이의 유사도에 기반하여 서로 다른 장면 이미지 상에 나타나는 복수의 동일한 타깃을 결정하여, 다중 타깃 추적의 목적을 구현하고, 또한 추적 과정이 타깃 수량과 무관하고, 가용성이 높다.
일부 선택 가능한 실시예에서, 각 인접된 두 장의 장면 이미지는 제1 장면 이미지 T0과 제2 장면 이미지 T1이다.
예를 들면 도 4에 도시된 바와 같이, 상기 104-1 단계는 하기 단계를 포함할 수 있다.
104-11 단계에서, 제1 장면 이미지 상의 N개의 타깃 특징 벡터 각각과 제2 장면 이미지 상의 M개의 타깃 특징 벡터 사이의 유사도를 결정한다.
본 출원의 실시예에서, 타깃 특징 정보는 어느 한 차원의 제2 특징 맵에 포함된 복수의 타깃 부위의 영역의 각 영역 중의 복수의 픽셀에 각각 대응하는 특징 정보를 표시하기 위한 것이다. 그 중에서, 타깃 부위는 안면 부위 및/또는 인체 부위를 포함할 수 있다.
타깃 특징 정보에 기반하여, 어느 한 차원의 제2 특징 맵에 포함된 복수의 타깃 부위의 영역에서, 임의의 픽셀에 대응하는 특징 정보는 모두 하나의 1차원의 특징 벡터를 구성할 수 있고, 차후 유사도 계산의 편리를 위하여, 이러한 특징 벡터 중에서 하나 또는 복수의 특징 벡터를 선택하여 해당 타깃 부위의 영역의 특징 정보를 표시할 수 있다. 본 출원의 실시예에서, 타깃 부위의 위치의 픽셀에 대응하는 특징 벡터를 선택하고, 해당 특징 벡터를 해당 차원의 제2 특징 맵 상 타깃 부위의 위치에 대응하는 타깃 특징 벡터로 할 수 있다. 그 중에서, 타깃 부위의 위치는 안면 식별 박스의 중심 위치 및/또는 인체 식별 박스의 중심 위치를 포함할 수 있다.
유사도를 결정하는 과정에서, 각 인접된 두 장의 장면 이미지 중 제1 장면 이미지 상의 N개의 타깃 특징 벡터 각각과 제2 장면 이미지 상의 M개의 타깃 특징 벡터 사이의 유사도를 결정할 수 있고, 그 중에서, N과 M은 2보다 크거나 같은 자연수다. 즉 제1 장면 이미지 상의 복수의 타깃 특징 벡터 각각과 제2 장면 이미지 상의 복수의 타깃 특징 벡터 사이의 유사도를 결정한다.
일 가능한 구현 방식에서, 유사도를 결정할 때, 타깃 특징 벡터 사이의 코사인 유사도 값을 결정할 수 있다. 제1 장면 이미지 상의 어느 한 타깃 특징 벡터와 제2 장면 이미지 상의 어느 한 타깃 특징 벡터의 협각 코사인 값을 계산하는 것을 통하여, 이들의 유사도를 평가한다.
104-12 단계에서, 상기 제1 장면 이미지 상의 N개의 타깃 특징 벡터 각각과 상기 제2 장면 이미지 상의 M개의 타깃 특징 벡터 사이의 상기 유사도에 기반하여, N×M 차원의 유사도 매트릭스를 취득한다.
본 출원의 실시예에서, 유사도 매트릭스 중 어느 한 차원의 값은 상기 제1 장면 이미지의 어느 한 제1 타깃 부위와 상기 제2 장면 이미지 중의 어느 한 제2 타깃 부위의 유사도를 표시한다. 그 중에서, N과 M은 같거나 다를 수 있다.
상기 실시예에서, 제1 장면 이미지 상의 N개의 타깃 특징 벡터 각각과 제2 장면 이미지 상의 M개의 타깃 특징 벡터 사이의 유사도를 결정하는 것을 통하여, N×M 차원의 유사도 매트릭스를 취득하고, 유사도 매트릭스를 통하여 상기 제1 장면 이미지의 어느 한 제1 타깃 부위와 상기 제2 장면 이미지 중의 어느 한 제2 타깃 부위의 유사도를 표시하여, 구현이 간단하고, 가용성이 높다.
일부 선택 가능한 실시예에서, 104-2 단계에 대하여 이분 그래프 알고리즘을 사용할 수 있는 바, 공간 거리 제약의 조건을 만족하는 조건 하에서, 상기 각 인접된 두 장의 장면 이미지 상 각 타깃 부위 사이의 유사도에 기반하여, 상기 서로 다른 장면 이미지 상에 나타나는 복수의 동일한 타깃을 결정한다.
그 중에서, 이분 그래프 알고리즘은 하나의 이분 그래프 내에서, 좌측 정점이 X, 우측 정점이 Y라 가정하고, 현재 각 그룹의 좌우 연결 XiYj에 대하여 가중치 wij가 존재할 때, 한 가지 매칭을 구하여 모든 wij의 합이 가장 크도록 하는 것이다. 본 출원의 실시예에서, Xi는 제1 장면 이미지 상의 N개의 타깃 특징 벡터 중의 하나에 상당하고, Yj는 제2 장면 이미지 상의 M개의 타깃 특징 벡터 중의 하나에 상당하며, 가중치 wij는 유사도에 대응된다. 본 출원은 유사도가 최대인 경우, N개의 타깃 특징 벡터와 제2 타깃 특징 벡터를 매칭시켜, 최종적으로 인접된 각 두 장의 장면 이미지에 나타나는 복수의 동일한 타깃을 결정할 수 있어야 한다.
본 출원의 실시예에서, 공간 거리 제약의 조건을 만족하는 것은, N개의 타깃 특징 벡터와 M개의 타깃 특징 벡터 사이의 유사도의 차원이 N×M을 초과하지 않는 것을 포함한다.
일 가능한 구현 방식에서, 유사도가 최대인 동시에 또한 이 유사도 최대치가 사전 설정 역치를 초과하는 것을 확보함으로써, 나아가서 다중 타깃 추적의 정확성을 향상시켜야 한다.
예를 들면 도 5에 도시된 바와 같이, 104-2 단계는 하기 단계를 포함할 수 있다:
104-21 단계에서, 상기 유사도 매트릭스에 기반하여, 상기 N개의 타깃 특징 벡터 중의 제1 타깃 특징 벡터 각각과 상기 M개의 타깃 특징 벡터 사이의 유사도 중에서, 유사도 최대치를 결정한다.
본 출원의 실시예에서, 제1 타깃 특징 벡터는 제1 장면 이미지 상에서 결정한 N개의 타깃 특징 벡터 중의 어느 하나이다. 유사도 매트릭스에 기반하여 해당 제1 타깃 특징 벡터와 제2 장면 이미지 상의 각 타깃 특징 벡터 사이의 유사도를 취득할 수 있고, 이러한 유사도 중에서 하나의 유사도 최대치를 결정할 수 있다.
유사도 매트릭스가
Figure pct00001
, 제1 타깃 특징 벡터와 M개의 제2 타깃 특징 벡터 사이의 유사도가 각각
Figure pct00002
,
Figure pct00003
Figure pct00004
이라고 가정하면, 그 중의 최대치를 결정할 수 있고,
Figure pct00005
이라고 가정한다.
104-22 단계에서, 만일 상기 유사도 최대치가 사전 설정 역치보다 크면, 상기 M개의 타깃 특징 벡터 중에서 상기 유사도 최대치에 대응하는 제2 타깃 특징 벡터를 결정한다.
본 출원의 실시예에서, 제2 타깃 특징 벡터는 제2 장면 이미지에 포함된 M개의 타깃 특징 벡터 중 해당 유사도 최대치에 대응하는 타깃 특징 벡터이다.
나아가서, 다중 타깃 추적의 정확성을 확보하기 위하여, 유사도 최대치가 사전 설정 역치보다 크도록 확보하여야 한다.
104-23 단계에서, 상기 제1 장면 이미지 상 상기 제1 타깃 특징 벡터에 대응하는 제1 타깃 부위 소속 타깃과 상기 제2 장면 이미지 상 상기 제2 타깃 특징 벡터에 대응하는 제2 타깃 부위 소속 타깃을 동일한 타깃으로 간주한다.
본 출원의 실시예에서, 상기 유사도 최대치가 사전 설정 역치보다 클 때만이, 비로소 제1 장면 이미지의 상기 제1 타깃 특징 벡터에 대응하는 제1 타깃 부위 소속 타깃과 상기 제2 장면 이미지 상 상기 제2 타깃 특징 벡터에 대응하는 제2 타깃 부위 소속 타깃을 동일한 타깃으로 간주한다.
만일 유사도 최대치가 사전 설정 역치보다 작거나 같으면, 제1 장면 이미지 상의 상기 제1 타깃 특징 벡터에 대응하는 제1 타깃 부위 소속 타깃이 제2 장면 이미지 상에 동일한 타깃이 존재하지 않는 것으로 간주할 수 있다.
상기 104-21 내지 104-23 단계를 반복하는 바, 반복 횟수는 제1 장면 이미지에 포함된 타깃 특징 벡터의 수량 N이고, 최종적으로 제1 장면 이미지와 제2 장면 이미지 상에서 나타나는 모든 동일한 타깃을 결정할 수 있다.
상기 실시예에서, 유사도 매트릭스에 기반하여, 인접된 각 두 장의 장면 이미지 상 타깃 부위 사이의 유사도가 가장 근접한 두 개의 타깃을 동일한 타깃으로 할 수 있어, 다중 타깃 추적의 목적을 구현하고, 가용성이 높다.
일부 선택 가능한 실시예에서, 복수 장의 장면 이미지를 취득한 후, 상기 복수 장의 장면 이미지 중 적어도 두 장을 사전 훈련된 특징 검출 모델로 입력하고, 상기 특징 검출 모델이 상기 복수 장의 장면 이미지 중의 각 장의 장면 이미지에 대하여 특징 추출 처리 및 타깃 부위 검출을 수행하여, 상기 각 장의 장면 이미지의 특징 정보 및 상기 각 장의 장면 이미지 상의 복수의 타깃 부위의 위치를 취득하고, 또한 상기 각 장의 장면 이미지 상 복수의 타깃 부위의 위치에 기반하여, 상기 각 장의 장면 이미지의 특징 정보 중 상기 복수의 타깃 부위의 위치에 대응하는 복수의 타깃 특징 정보를 취득할 수 있다.
특징 검출 모델의 구조는 예를 들면 도 6에 도시된 바와 같고, 복수 장의 장면 이미지를 특징 검출 모델에 입력하고, 특징 검출 모델이 우선 백본(backbone) 네트워크를 통하여 복수 장의 장면 이미지 중의 각 장의 장면 이미지에 대하여 특징 추출을 수행하여, 각 장의 장면 이미지의 제1 특징 맵을 취득한다.
나아가서, 특징 검출 모델의 부위 검출 브랜치를 통하여, 상기 각 장의 장면 이미지의 제1 특징 맵 상에서 타깃 부위 검출을 수행하여, 상기 각 장의 장면 이미지 상의 복수의 타깃 부위의 위치를 취득하며; 또한 상기 특징 검출 모델의 특징 추출 브랜치를 통하여, 상기 각 장의 장면 이미지의 제1 특징 맵에 대하여 특징 추출 처리를 수행하여, 다차원의 제2 특징 맵을 취득한다. 그 중에서, 타깃은 인물을 포함할 수 있고, 타깃 부위는 안면 부위 및/또는 인체 부위를 포함할 수 있다. 특징 추출 브랜치는 적어도 하나의 컨볼루션 층이 직렬되어 형성될 수 있다. 제2 특징 맵의 사이즈는 제1 특징 맵과 같고, 이로써 각 차원의 제2 특징 맵 상에서 복수의 타깃 부위의 위치는 모두 동일하다. 제2 특징 맵의 차원 값은 각 장의 장면 이미지에 대응하는 사전 설정 채널 수와 같다.
나아가서, 상기 다차원의 제2 특징 맵 상에서, 상기 복수의 타깃 부위의 위치에 대응하는 복수의 타깃 특징 벡터를 취득할 수 있다. 타깃 부위의 위치는 안면 식별 박스의 중심 위치 및/또는 인체 식별 박스의 중심 위치를 통하여 표시될 수 있다. 타깃 특징 벡터의 차원 값은 제2 특징 맵의 차원 값과 같다. 어느 한 안면 식별 박스의 중심 위치 좌표가 (x, y)라고 가정하면, 특징 추출 브랜치가 취득한 제2 특징 맵의 사이즈와 제1 특징 맵의 사이즈가 일치한 바, 모두 H×W이고, 그 중에서, H와 W는 각각 이미지의 길이와 너비이고, 제2 특징 맵의 차원 값은 C이고, C는 각 장의 장면 이미지에 대응하는 사전 설정 채널 수량이다. 각 채널 상에서, 모두 안면 식별 박스 중심 위치(x, y)에 대응하는 타깃 특징 벡터를 취득할 수 있기 때문에, 타깃 특징 벡터의 차원 값은 C이다.
본 출원의 실시예에서, 상기 다차원의 제2 특징 맵 상에서 상기 복수의 타깃 부위의 위치에 대응하는 복수의 타깃 특징 벡터를 취득한 후, 제1 장면 이미지 상의 N개의 타깃 특징 벡터 각각과 제2 장면 이미지 상의 M개의 타깃 특징 벡터 사이의 유사도를 결정하여 유사도 매트릭스를 취득하고, 해당 유사도 매트릭스에 기반하여 상기 서로 다른 장면 이미지 상에 나타나는 복수의 동일한 타깃을 결정할 수 있다. 결정 방식은 상기 104-2 단계의 방식과 같고, 여기에서는 상세한 설명을 생략하도록 한다.
예를 들면 도 7에 도시된 바와 같이, 제1 장면 이미지 T0과 제2 장면 이미지 T1에 대하여, 각각 상기 특징 검출 모델에 입력하고, N개의 타깃 특징 벡터와 M개의 타깃 특징 벡터를 각각 취득할 수 있다. 나아가서, 이분 그래프 알고리즘을 사용하여, 공간 거리 제약의 조건을 만족하는 조건 하에서 추출된 상기 타깃 부위의 특징에 대하여 매칭을 수행하여, T0과 T1에 나타나는 동일한 타깃을 결정할 수 있다.
상기 실시예에서, 각 장의 장면 이미지에 대하여 단일 프레임 추정을 수행하고, 각 장의 장면 이미지에 얼마의 타깃이 포함되든지 모두 빠르게 다중 타깃 추적을 구현할 수 있어, 효과적으로 다중 타깃 추적의 검출 효율을 향상시킨다.
일부 선택 가능한 실시예에서, 예를 들면 도 8에 도시된 바와 같이, 해당 방법은 또한 하기 단계를 포함할 수 있다.
100-1 단계에서, 동일한 장면에 대응하는 복수 장의 샘플 장면 이미지를 초기 신경망 모델에 입력하여, 상기 초기 신경망 모델이 출력하는 각 장의 샘플 장면 이미지 상 복수의 타깃 부위의 위치에 각각 대응하는 샘플 특징 벡터를 취득한다.
본 출원의 실시예에서, 기존의 동일한 장면에 대응하는 복수 장의 샘플 이미지를 초기 신경망 모델의 입력 값으로 간주하는 것을 사용하여, 복수 장의 샘플 이미지 중에 사전에 각 식별 박스 및/또는 대응하는 타깃 식별을 통하여 복수의 동일한 타깃과 서로 다른 타깃을 식별하였다.
본 출원의 실시예에서, 초기 신경망 모델의 구조는 마찬가지로 도 6에 도시된 바와 같을 수 있고, 백본 네트워크, 부위 검출 브랜치 및 특징 추출 브랜치를 포함한다. 입력 값이 복수 장의 샘플 장면 이미지를 포함하는 경우, 각 장의 샘플 장면 이미지 상 복수의 타깃 부위의 위치에 각각 대응하는 샘플 특징 벡터를 취득할 수 있다.
100-2 단계에서, 상기 각 장의 샘플 장면 이미지 상 이미 라벨링된 복수의 타깃 부위에 각각 대응하는 타깃 식별자에 기반하여, 각 인접된 두 장의 샘플 장면 이미지 상, 동일한 상기 타깃 식별자의 상기 타깃 부위의 위치에 대응하는 상기 샘플 특징 벡터 사이의 제1 유사도를 결정하며, 및/또는 서로 다른 상기 타깃 식별자의 상기 타깃 부위의 위치에 대응하는 상기 샘플 특징 벡터 사이의 제2 유사도를 결정한다.
본 출원의 실시예에서, 초기 신경망 모델이 출력한 각 장의 샘플 장면 이미지 상 복수의 타깃 부위의 위치에 각각 대응하는 샘플 특징 벡터에 기반하여, 각 인접된 두 장의 샘플 장면 이미지 상의 동일한 상기 타깃 식별자의 상기 타깃 부위의 위치에 대응하는 상기 샘플 특징 벡터 사이의 제1 유사도, 및/또는 상기 각 인접된 두 장의 샘플 장면 이미지 상 서로 다른 상기 타깃 식별자의 상기 타깃 부위의 위치에 대응하는 상기 샘플 특징 벡터 사이의 제2 유사도를 결정할 수 있다.
그 중에서, 샘플 특징 벡터 사이의 코사인 유사도 값에 기반하여 상기 제1 유사도 값과 제2 유사도 값을 취득할 수 있다.
100-3 단계에서, 상기 각 장의 샘플 장면 이미지 상 이미 라벨링된 복수의 타깃 부위에 각각 대응하는 타깃 식별자에 기반하여, 상기 제1 유사도와 상기 제2 유사도 중 적어도 하나에 기반하여, 상기 초기 신경망 모델에 대하여 감독 훈련을 수행하여 상기 특징 검출 모델을 취득한다.
본 출원의 실시예에서, 제1 유사도 값을 향상시키고 제2 유사도 값을 낮추는 방식을 통하여, 예를 들면 도 9에 도시된 바와 같이, 손실 함수를 결정할 수 있다. 상기 각 인접된 두 장의 샘플 장면 이미지 상 복수의 타깃 부위에 각각 대응하는 타깃 식별에 기초하고, 결정된 손실 함수에 기반하여, 사전 설정 모델의 네트워크 파라미터를 조정하고, 감독 훈련을 완성한 후 특징 검출 모델을 취득한다.
상기 실시예에서, 상기 각 장의 샘플 장면 이미지 상 이미 라벨링된 복수의 타깃 부위에 각각 대응하는 타깃 식별자에 기반하여, 초기 신경망 모델에 대하여 감독 훈련을 수행하여 상기 특징 검출 모델을 취득함으로써, 특징 검출 모델의 검출 성능과 일반화 성능을 향상시켰다.
일부 선택 가능한 실시예에서, 100-3 단계에 대하여, 제1 유사도 참조값과 상기 제1 유사도 사이의 차이를 제1 손실 함수로 할 수 있다. 그 중에서, 제1 유사도 참조값은 상기 각 두 장의 샘플 장면 이미지 상에 이미 라벨링된 같은 타깃 식별자의 타깃 부위에 대응하는 샘플 특징 벡터 사이의 유사도 참조값이다. 예시적으로, 제1 유사도 참조값은 샘플 특징 벡터 사이의 코사인 유사도 값이고, 값은 1일 수 있다.
초기 신경망 모델의 네트워크 파라미터를 조정하는 것을 통하여, 제1 손실 함수가 최소가 되도록 하거나 또는 사전 설정 훈련 횟수에 도달하도록 하여, 특징 검출 모델을 취득한다.
또는 제2 유사도 참조값과 상기 제2 유사도 사이의 차이를 제2 손실 함수로 할 수 있다. 그 중에서, 제2 유사도 참조값은 상기 각 두 장의 샘플 장면 이미지 상에 이미 라벨링된 서로 다른 타깃 식별자의 타깃 부위에 대응하는 샘플 특징 벡터 사이의 유사도 참조값이다. 예시적으로, 제2 유사도 참조값은 샘플 특징 벡터 사이의 코사인 유사도 값이고, 값은 0일 수 있다.
마찬가지로 초기 신경망 모델의 네트워크 파라미터를 조정하는 것을 통하여, 제2 손실 함수가 최소가 되도록 하거나 또는 사전 설정 훈련 횟수에 도달하도록 하여, 특징 검출 모델을 취득한다.
또는 동시에 제1 손실 함수와 제2 손실 함수를 초기 신경망 모델의 손실 함수로 간주하고, 초기 신경망 모델의 네트워크 파라미터를 조정하여, 두 손실 함수가 최소가 되도록 하거나 또는 사전 설정 훈련 횟수에 도달하도록 하여, 특징 검출 모델을 취득한다.
일부 선택 가능한 실시예에서, 예를 들면 도 10에 도시된 바와 같이, 해당 방법은 또한 하기 단계를 포함할 수 있다:
105 단계에서, 상기 복수의 장면 이미지 상에 나타나는 복수의 동일한 타깃 중 적어도 하나의 타깃의 사전 설정된 시간대 내의 운동 궤적이 타깃 운동 궤적에 부합되는지 여부를 결정한다.
본 출원의 실시예에서, 복수 장의 장면 이미지는 교실 장면에 대응하고, 상기 타깃은 티칭 객체를 포함하며, 상기 타깃 운동 궤적은 티칭 임무 중 상기 티칭 객체에 대하여 지정한 적어도 한 가지 운동 궤적을 포함한다. 그 중에서, 티칭 임무 중 상기 티칭 객체에 대하여 지정한 적어도 한 가지 운동 궤적은 현재 소재하는 위치로부터 선생님이 지정한 기타 위치로 걸어가는 것을 포함할 수 있으나 이에 제한되지 않고, 기타 위치는 교단, 칠판 또는 기타 학생들이 소재하는 위치일 수 있으며, 또는 타깃 운동 궤적은 또한 현재 위치에서 이동이 발생하지 않은 것을 포함할 수 있다.
예를 들면 교실에서, 교실 내에 배치된 카메라가 구비된 티칭 멀티미디어 장치를 사용하여 교실에서 선후로 복수 장의 장면 이미지를 취득할 수 있는 바, 멀티미디어 장치는 티칭 프로젝터, 교실 내의 모니터링 장치 등을 포함하나 이에 제한되지 않는다. 교실 장면 이미지에 포함된 적어도 하나의 티칭 객체의 운동 궤적을 결정하는 바, 해당 티칭 객체는 학생일 수 있다.
나아가서, 설정된 시간대 내에, 예를 들면 선생님이 티칭을 수행하는 한 차례 수업의 시간대 내에 각 티칭 객체, 예를 들면 각 학생의 운동 궤적이 티칭 임무 중 상기 티칭 객체에 대하여 지정한 적어도 한 가지 운동 궤적에 부합되는지 여부를 결정한다. 예를 들면, 선생님의 지시에 따라 현재 위치로부터 칠판 앞, 또는 기타 학생들이 소재하는 위치로 이동하였는지, 또는 시종 동일한 위치에 위치하여 운동 궤적의 이동이 발생하지 않았는지, 예를 들면 시종 자기의 위치에 앉아 강의를 들었는지 등이다. 티칭 멀티미디어 장치를 통하여 상기 결과를 디스플레이하여, 선생님이 티칭 임무를 더 잘 수행하게 할 수 있다.
전술한 방법 실시예에 대응되게, 본 출원에서는 또한 장치의 실시예를 제공한다.
도 11에 도시된 바와 같이, 도 11은 본 출원의 일 예시적 실시예에 기반하여 도시하는 일 타깃 추적 장치의 블록도로서, 장치는, 동일한 장면에 대응하는 복수 장의 장면 이미지를 취득하는 취득 모듈(210); 상기 복수 장의 장면 이미지 중의 각 장의 장면 이미지에 대하여 특징 추출 처리 및 타깃 부위 검출을 수행하여, 상기 각 장의 장면 이미지의 특징 정보 및 상기 각 장의 장면 이미지 상의 복수의 타깃 부위의 위치를 취득하는 처리 모듈(220); 상기 각 장의 장면 이미지의 특징 정보 중 상기 복수의 타깃 부위의 위치에 각각 대응하는 타깃 특징 정보를 취득하는 특징 정보 결정 모듈(230); 취득된 상기 복수의 타깃 부위의 위치에 각각 대응하는 타깃 특징 정보에 기반하여, 상기 복수 장의 장면 이미지에 나타나는 복수의 동일한 타깃을 결정하는 바, 그 중에서, 각 장의 장면 이미지에는 상기 복수의 동일한 타깃의 일부 또는 전부 타깃이 포함되는 타깃 결정 모듈(240)을 포함한다.
일부 선택 가능한 실시예에서, 상기 처리 모듈은, 상기 복수 장의 장면 이미지 중의 각 장의 장면 이미지의 제1 특징 맵을 추출하는 제1 처리 서브 모듈; 상기 각 장의 장면 이미지의 제1 특징 맵 상에서 타깃 부위 검출을 수행하여, 상기 각 장의 장면 이미지 상의 복수의 타깃 부위의 위치를 취득하며 또한 상기 각 장의 장면 이미지의 제1 특징 맵에 대하여 특징 추출 처리를 수행하여, 다차원의 제2 특징 맵을 취득하는 제2 처리 서브 모듈을 포함하며; 상기 특징 정보 결정 모듈은, 상기 다차원의 제2 특징 맵 상에서 상기 복수의 타깃 부위의 위치와 대응하는 타깃 특징 벡터를 취득하는 특징 벡터 결정 서브 모듈을 포함한다.
일부 선택 가능한 실시예에서, 상기 타깃 결정 모듈은, 상기 복수 장의 장면 이미지 중 각 인접된 두 장의 장면 이미지에 각각 대응하는 복수의 타깃 특징 정보를 이용하여, 상기 각 인접된 두 장의 장면 이미지 상 각 타깃 부위 사이의 유사도를 취득하는 유사도 결정 서브 모듈; 상기 각 인접된 두 장의 장면 이미지 상 각 타깃 부위 사이의 유사도에 기반하여, 서로 다른 장면 이미지 상에 나타나는 복수의 동일한 타깃을 결정하는 타깃 결정 서브 모듈을 포함한다.
일부 선택 가능한 실시예에서, 상기 각 인접된 두 장의 장면 이미지는 제1 장면 이미지와 제2 장면 이미지이며; 상기 유사도 결정 서브 모듈은, 제1 장면 이미지 상의 N개의 타깃 특징 벡터 각각과 제2 장면 이미지 상의 M개의 타깃 특징 벡터 사이의 유사도를 결정하며; 그 중에서, N과 M은 2보다 크거나 같은 자연수이며; 상기 제1 장면 이미지 상의 N개의 타깃 특징 벡터 각각과 상기 제2 장면 이미지 상의 M개의 타깃 특징 벡터 사이의 상기 유사도에 기반하여, N×M 차원의 유사도 매트릭스를 취득하는 바, 상기 유사도 매트릭스 중 임의의 차원의 값은 상기 제1 장면 이미지의 임의의 제1 타깃 부위와 상기 제2 장면 이미지 중의 임의의 제2 타깃 부위의 유사도를 표시하는 것을 포함한다.
일부 선택 가능한 실시예에서, 상기 타깃 결정 서브 모듈은, 상기 유사도 매트릭스에 기반하여, 상기 N개의 타깃 특징 벡터 중의 제1 타깃 특징 벡터 각각과 상기 M개의 타깃 특징 벡터 사이의 유사도 중에서, 유사도 최대치를 결정하며; 만일 상기 유사도 최대치가 사전 설정 역치보다 크면, 상기 M개의 타깃 특징 벡터 중에서 상기 유사도 최대치에 대응하는 제2 타깃 특징 벡터를 결정하며; 상기 제1 장면 이미지 상 상기 제1 타깃 특징 벡터에 대응하는 제1 타깃 부위 소속 타깃과 상기 제2 장면 이미지 상 상기 제2 타깃 특징 벡터에 대응하는 제2 타깃 부위 소속 타깃을 동일한 타깃으로 간주하는 것을 포함한다.
일부 선택 가능한 실시예에서, 상기 처리 모듈은, 특징 검출 모델의 백본 네트워크를 통하여 상기 복수 장의 장면 이미지 중의 각 장의 장면 이미지의 제1 특징 맵을 추출하는 제3 처리 서브 모듈; 상기 특징 검출 모델의 부위 검출 브랜치를 통하여, 상기 각 장의 장면 이미지의 제1 특징 맵 상에서 타깃 부위 검출을 수행하여, 상기 각 장의 장면 이미지 상의 복수의 타깃 부위의 위치를 취득하며 또한 상기 특징 검출 모델의 특징 추출 브랜치를 통하여, 상기 각 장의 장면 이미지의 제1 특징 맵에 대하여 특징 추출 처리를 수행하여, 다차원의 제2 특징 맵을 취득하는 제4 처리 서브 모듈을 포함한다.
일부 선택 가능한 실시예에서, 상기 장치는, 동일한 장면에 대응하는 복수 장의 샘플 장면 이미지를 사전 설정 모델에 입력하여, 상기 사전 설정 모델이 출력하는 각 장의 샘플 장면 이미지 상 복수의 타깃 부위의 위치에 각각 대응하는 복수의 특징 벡터를 취득하는 특징 벡터 결정 모듈; 각 인접된 두 장의 샘플 장면 이미지 상 이미 라벨링된 복수의 타깃 부위에 각각 대응하는 타깃 식별자에 기반하여, 상기 각 인접된 두 장의 샘플 장면 이미지 상, 동일한 상기 타깃 식별자의 상기 타깃 부위의 위치에 대응하는 샘플 특징 벡터 사이의 제1 유사도를 결정하며; 및/또는 상기 각 인접된 두 장의 샘플 장면 이미지 상 서로 다른 타깃 식별자의 타깃 부위의 위치에 대응하는 샘플 특징 벡터 사이의 제2 유사도를 결정하는 유사도 결정 모듈; 상기 각 인접된 두 장의 샘플 장면 이미지 상 이미 라벨링된 복수의 타깃 부위에 각각 대응하는 타깃 식별자에 기반하여, 상기 제2 유사도와 상기 제1 유사도 중 적어도 하나에 기반하여, 상기 사전 설정 모델에 대하여 감독 훈련을 수행하여 상기 특징 검출 모델을 취득하는 훈련 모듈을 더 포함한다.
일부 실시예에서, 제1 유사도 참조값과 상기 제1 유사도 사이의 차이를 제1 손실 함수로 하며; 그 중에서, 상기 제1 유사도 참조값은 상기 각 인접된 두 장의 샘플 장면 이미지 상에 이미 라벨링된 같은 타깃 식별자의 타깃 부위에 대응하는 샘플 특징 벡터 사이의 유사도 참조값이며; 제2 유사도 참조값과 상기 제2 유사도 사이의 차이를 제2 손실 함수로 하며; 그 중에서, 상기 제2 유사도 참조값은 상기 각 인접된 두 장의 샘플 장면 이미지 상에 이미 라벨링된 다른 타깃 식별자의 타깃 부위에 대응하는 샘플 특징 벡터 사이의 유사도 참조값이며; 상기 제1 손실 함수와 상기 제2 손실 함수 중 적어도 하나에 기반하여, 상기 초기 신경망 모델에 대하여 훈련을 수행하여 상기 특징 검출 모델을 취득한다.
일부 선택 가능한 실시예에서, 상기 장치는, 상기 복수의 장면 이미지 상에 나타나는 복수의 동일한 타깃 중 적어도 하나의 타깃의 사전 설정된 시간대 내의 운동 궤적이 타깃 운동 궤적에 부합되는지 여부를 결정하는 운동 궤적 결정 모듈을 더 포함한다.
일부 선택 가능한 실시예에서, 상기 복수 장의 장면 이미지는 교실 장면에 대응되고, 상기 타깃은 티칭 객체를 포함하며, 상기 타깃 운동 궤적은 티칭 임무 중 상기 티칭 객체에 대하여 지정한 적어도 한 가지 운동 궤적을 포함한다.
장치 실시예에 대하여, 이는 기본적으로 방법 실시예에 대응되기 때문에, 관련된 부분은 방법 실시예의 일부 설명을 참조하면 된다. 상기 기재된 장치 실시예는 단지 예시적일 뿐이며, 그 중에서 분리된 부품으로 설명된 유닛은 물리적으로 분리되거나 분리되지 않은 것을 수 있고, 유닛으로 표시된 부품은 물리적인 유닛이거나 아닐 수 있으며, 한 곳에 위치하거나 또는 복수의 네트워크 유닛 상에 분포될 수 있다. 실제 수요에 따라 그 중의 일부 또는 전부 모듈을 선택하여 본 출원 방안의 목적을 구현할 수 있다. 당업계 기술자들은 창조적 노력을 필요로 하지 않고, 바로 이해 및 실시할 수 있다.
본 출원에서는 또한 컴퓨터 판독가능 저장 매체를 제공하는 바, 저장 매체에는 컴퓨터 프로그램이 저장되어 있고, 컴퓨터 프로그램은 상기 어느 한 타깃 추적 방법을 실행하기 위한 것이다.
일부 선택 가능한 실시예에서, 본 출원의 실시예에서는 컴퓨터 프로그램 제품을 제공하는 바, 컴퓨터 판독가능 코드를 포함하고, 상기 컴퓨터 판독가능 코드가 장치 상에서 실행될 때, 장치 중의 프로세서가 상기 어느 한 실시예가 제공하는 타깃 추적 방법을 실행한다.
일부 선택 가능한 실시예에서, 본 출원의 실시예에서는 또한 다른 컴퓨터 프로그램 제품을 제공하는 바, 컴퓨터 판독가능 명령을 저장하기 위한 것이고, 명령이 실행될 때 컴퓨터가 상기 어느 한 실시예가 제공하는 타깃 추적 방법의 조작을 실행하게 한다.
해당 컴퓨터 프로그램 제품은 구체적으로 하드웨어, 소프트웨어 또는 그 결합의 방식을 통하여 구현될 수 있다. 일 선택 가능한 실시예에서, 상기 컴퓨터 프로그램 제품은 구체적으로 컴퓨터 저장 매체로 구현되고, 다른 일 실시예에서, 컴퓨터 프로그램 제품은 구체적으로 소프트웨어 제품으로 구현되는 바, 예를 들면 소프트웨어 개발 키트(Software Development Kit, SDK) 등이다.
일부 선택 가능한 실시예에서, 본 출원의 실시예에서는 일 컴퓨터 프로그램을 제공하는 바, 그 중에서 상기 컴퓨터 프로그램이 실행될 때 컴퓨터가 상기 어느 한 실시예가 제공하는 타깃 추적 방법의 조작을 실행하게 한다.
본 출원의 실시예에서는 또한 타깃 추적 장치를 제공하는 바, 프로세서; 프로세서가 실행 가능한 명령을 저장하는 기억장치를 포함하며; 그 중에서, 프로세서는 상기 기억장치 중의 실행 가능한 명령을 호출할 때, 상기 어느 한 실시예의 상기 타깃 추적 방법을 구현하도록 구성된다.
도 12는 본 출원의 실시예에서 제공하는 일 타깃 추적 장치의 하드웨어 구조도이다. 해당 타깃 추적 장치(310)는 프로세서(311)를 포함하고, 또한 입력 장치(312), 출력 장치(313) 및 기억장치(314)를 포함할 수 있다. 해당 입력 장치(312), 출력 장치(313)과 기억장치(314)와 프로세서(311) 사이는 버스를 통하여 상호 연결된다.
기억장치는 랜덤 접속 메모리(Random Access Memory, RAM), 읽기전용 메모리(Read-Only Memory, ROM), 소거가능 프로그래머블 읽기전용 메모리(Erasable Programmable Read-Only Memory, EPROM) 또는 휴대식 읽기 전용 메모리(Compact Disc Read-Only Memory, CD-ROM)를 포함하나 이에 제한되지 않으며, 해당 기억장치는 관련 명령 및 데이터를 저장하기 위한 것이다.
입력 장치는 데이터 및/또는 신호를 입력하기 위한 것이고, 또한 출력 장치는 데이터 및/또는 신호를 출력하기 위한 것이다. 출력 장치와 입력 장치는 독립적인 장치일 수도 있고, 또한 하나의 전반적인 장치일 수도 있다.
프로세서는 하나 또는 복수의 프로세서를 포함할 수 있는 바, 예를 들면 하나 또는 복수의 중앙처리장치(central processing unit, CPU)를 포함하고, 프로세서가 하나의 CPU인 경우, 해당 CPU는 싱글 코어 CPU일 수도 있고, 또한 멀티 코어 CPU일 수도 있다.
기억장치는 네트워크 장치의 프로그램 코드와 데이터를 저장하기 위한 것이다.
프로세서는 해당 기억장치 중의 프로그램 코드와 데이터를 호출하여, 상기 방법 실시예 중의 단계를 실행하기 위한 것이다. 구체적인 내용은 방법 실시예 중의 설명을 참조할 수 있으며, 여기에서는 상세한 설명을 생략하도록 한다.
도 12는 단지 일 타깃 추적 장치의 간략화 설계를 도시한 것을 이해할 수 있을 것이다. 실제 응용에서, 타깃 추적 장치는 또한 각각 필요한 기타 부품을 포함할 수 있는 바, 임의의 수량의 입력/출력 장치, 프로세서, 제어기, 기억장치 등이 포함될 수 있으나 이에 제한되지 않으며, 본 출원의 실시예를 구현할 수 있는 모든 타깃 추적 장치는 모두 본 출원의 보호 범위 내에 속한다.
당업계의 기술자들은 명세서 및 여기에 공개된 발명을 실천한 후, 쉽게 본 출원의 기타 실시방안을 유도해낼 수 있을 것이다. 본 출원은 본 출원의 임의의 변형, 용도와 적응성 변화를 포함하고, 이러한 변화, 용도 또는 적응성 변화는 본 출원의 일반적 원리를 따르고 또한 본 출원에 공개되지 않은 본 기술분야의 통상적인 지식 또는 통상적인 기술 수단을 포함한다. 명세서와 실시예는 단지 예시적일 뿐, 본 출원의 진정한 범위와 사상은 하기 청구항에 기반하여 개시된다.
상술한 것은 단지 본 출원의 바람직한 실시예일 뿐이고, 본 출원을 제한하는 것이 아니며, 본 출원의 사상과 원칙 내에서 수행하는 임의의 수정, 등가 교체, 개선 등은 모두 본 출원이 보호하는 범위 내에 속해야 한다.

Claims (14)

  1. 타깃 추적 방법에 있어서,
    동일한 장면에 대응하는 복수 장의 장면 이미지를 취득하는 것;
    상기 복수 장의 장면 이미지 중의 각 장의 장면 이미지에 대하여 특징 추출 처리 및 타깃 부위 검출을 수행하여, 상기 각 장의 장면 이미지의 특징 정보 및 상기 각 장의 장면 이미지 상의 복수의 타깃 부위의 위치를 취득하는 것;
    상기 각 장의 장면 이미지의 특징 정보 중 상기 복수의 타깃 부위의 위치에 각각 대응하는 타깃 특징 정보를 취득하는 것; 및
    취득된 상기 복수의 타깃 부위의 위치에 각각 대응하는 타깃 특징 정보에 기반하여, 상기 복수 장의 장면 이미지에 나타나는 복수의 동일한 타깃을 결정하는 바, 각 장의 장면 이미지에는 상기 복수의 동일한 타깃의 일부 또는 전부 타깃이 포함되는
    것을 포함하는 것을 특징으로 하는 타깃 추적 방법.
  2. 제1항에 있어서,
    상기 복수 장의 장면 이미지 중의 각 장의 장면 이미지에 대하여 특징 추출 처리 및 타깃 부위 검출을 수행하여, 상기 각 장의 장면 이미지의 특징 정보 및 상기 각 장의 장면 이미지 상의 복수의 타깃 부위의 위치를 취득하는 것은,
    상기 복수 장의 장면 이미지 중의 각 장의 장면 이미지의 제1 특징 맵을 추출하는 것;
    상기 각 장의 장면 이미지의 제1 특징 맵 상에서 타깃 부위 검출을 수행하여, 상기 각 장의 장면 이미지 상의 복수의 타깃 부위의 위치를 취득하는 것; 및
    상기 각 장의 장면 이미지의 제1 특징 맵에 대하여 특징 추출 처리를 수행하여, 다차원의 제2 특징 맵을 취득하는 것을 포함하며;
    상기 각 장의 장면 이미지의 특징 정보 중 상기 복수의 타깃 부위의 위치에 각각 대응하는 타깃 특징 정보를 취득하는 것은,
    상기 다차원의 제2 특징 맵 상에서 상기 복수의 타깃 부위의 위치에 각각 대응하는 타깃 특징 벡터를 취득하는 것을 포함하는
    것을 특징으로 하는 타깃 추적 방법.
  3. 제1항 또는 제2항에 있어서,
    취득된 상기 복수의 타깃 부위의 위치에 각각 대응하는 타깃 특징 정보에 기반하여, 상기 복수 장의 장면 이미지에 나타나는 복수의 동일한 타깃을 결정하는 것은,
    상기 복수 장의 장면 이미지 중 각 인접된 두 장의 장면 이미지에 각각 대응하는 복수의 타깃 특징 정보를 이용하여, 상기 각 인접된 두 장의 장면 이미지 상 각 타깃 부위 사이의 유사도를 취득하는 것; 및
    상기 각 인접된 두 장의 장면 이미지 상 각 타깃 부위 사이의 유사도에 기반하여, 서로 다른 장면 이미지 상에 나타나는 복수의 동일한 타깃을 결정하는 것을 포함하는
    것을 특징으로 하는 타깃 추적 방법.
  4. 제3항에 있어서,
    상기 각 인접된 두 장의 장면 이미지는 제1 장면 이미지와 제2 장면 이미지이며;
    상기 복수 장의 장면 이미지 중 각 인접된 두 장의 장면 이미지에 각각 대응하는 복수의 타깃 특징 정보를 이용하여, 상기 각 인접된 두 장의 장면 이미지 상 각 타깃 부위 사이의 유사도를 취득하는 것은,
    제1 장면 이미지 상의 N개의 타깃 특징 벡터 각각과 제2 장면 이미지 상의 M개의 타깃 특징 벡터 사이의 유사도를 결정하는 것 - N과 M은 2보다 크거나 같은 자연수임; 및
    상기 제1 장면 이미지 상의 N개의 타깃 특징 벡터 각각과 상기 제2 장면 이미지 상의 M개의 타깃 특징 벡터 사이의 상기 유사도에 기반하여, N×M 차원의 유사도 매트릭스를 취득하는 바, 상기 유사도 매트릭스 중 임의의 차원의 값은 상기 제1 장면 이미지의 임의의 제1 타깃 부위와 상기 제2 장면 이미지 중의 임의의 제2 타깃 부위의 유사도를 표시하는 것을 포함하는
    것을 특징으로 하는 타깃 추적 방법.
  5. 제4항에 있어서,
    상기 각 인접된 두 장의 장면 이미지 상 각 타깃 부위 사이의 유사도에 기반하여, 상기 서로 다른 장면 이미지 상에 나타나는 복수의 동일한 타깃을 결정하는 것은,
    상기 유사도 매트릭스에 기반하여, 상기 N개의 타깃 특징 벡터 중의 제1 타깃 특징 벡터 각각과 상기 M개의 타깃 특징 벡터 사이의 유사도 중에서, 유사도 최대치를 결정하는 것;
    만일 상기 유사도 최대치가 사전 설정 역치보다 크면, 상기 M개의 타깃 특징 벡터 중에서 상기 유사도 최대치에 대응하는 제2 타깃 특징 벡터를 결정하는 것; 및
    상기 제1 장면 이미지 상 상기 제1 타깃 특징 벡터에 대응하는 제1 타깃 부위 소속 타깃과 상기 제2 장면 이미지 상 상기 제2 타깃 특징 벡터에 대응하는 제2 타깃 부위 소속 타깃을 동일한 타깃으로 간주하는 것을 포함하는
    것을 특징으로 하는 타깃 추적 방법.
  6. 제1항 내지 제5항 중 어느 한 항에 있어서,
    상기 복수 장의 장면 이미지 중의 각 장의 장면 이미지에 대하여 특징 추출 처리 및 타깃 부위 검출을 수행하여, 상기 각 장의 장면 이미지의 특징 정보 및 상기 각 장의 장면 이미지 상의 복수의 타깃 부위의 위치를 취득하는 것은,
    특징 검출 모델의 백본 네트워크를 통하여 상기 복수 장의 장면 이미지 중의 각 장의 장면 이미지의 제1 특징 맵을 추출하며;
    상기 특징 검출 모델의 부위 검출 브랜치를 통하여, 상기 각 장의 장면 이미지의 제1 특징 맵 상에서 타깃 부위 검출을 수행하여, 상기 각 장의 장면 이미지 상의 복수의 타깃 부위의 위치를 취득하는 것; 및
    상기 특징 검출 모델의 특징 추출 브랜치를 통하여, 상기 각 장의 장면 이미지의 제1 특징 맵에 대하여 특징 추출 처리를 수행하여, 다차원의 제2 특징 맵을 취득하는 것을 포함하는
    것을 특징으로 하는 타깃 추적 방법.
  7. 제6항에 있어서,
    동일한 장면에 대응하는 복수 장의 샘플 장면 이미지를 초기 신경망 모델에 입력하여, 상기 초기 신경망 모델이 출력하는 각 장의 샘플 장면 이미지 상 복수의 타깃 부위의 위치에 각각 대응하는 샘플 특징 벡터를 취득하는 것;
    상기 각 장의 샘플 장면 이미지 상 이미 라벨링된 복수의 타깃 부위에 각각 대응하는 타깃 식별자에 기반하여, 각 인접된 두 장의 샘플 장면 이미지 상, 동일한 상기 타깃 식별자의 상기 타깃 부위의 위치에 대응하는 상기 샘플 특징 벡터 사이의 제1 유사도를 결정하며, 및/또는 서로 다른 상기 타깃 식별자의 상기 타깃 부위의 위치에 대응하는 상기 샘플 특징 벡터 사이의 제2 유사도를 결정하는 것; 및
    상기 각 장의 샘플 장면 이미지 상 이미 라벨링된 복수의 타깃 부위에 각각 대응하는 타깃 식별자에 기반하여, 상기 제1 유사도와 상기 제2 유사도 중 적어도 하나에 기반하여, 상기 초기 신경망 모델에 대하여 감독 훈련(supervised training)을 수행하여 상기 특징 검출 모델을 취득하는 것을 더 포함하는
    것을 특징으로 하는 타깃 추적 방법.
  8. 제7항에 있어서,
    상기 각 장의 샘플 장면 이미지 상 이미 라벨링된 복수의 타깃 부위에 각각 대응하는 타깃 식별자에 기반하여, 상기 제1 유사도와 상기 제2 유사도 중 적어도 하나에 기반하여, 상기 초기 신경망 모델에 대하여 감독 훈련을 수행하여 상기 특징 검출 모델을 취득하는 것은,
    제1 유사도 참조값과 상기 제1 유사도 사이의 차이를 제1 손실 함수로 간주하는 것 - 상기 제1 유사도 참조값은 상기 각 인접된 두 장의 샘플 장면 이미지 상에 이미 라벨링된 같은 타깃 식별자의 타깃 부위에 대응하는 샘플 특징 벡터 사이의 유사도 참조값임 -;
    제2 유사도 참조값과 상기 제2 유사도 사이의 차이를 제2 손실 함수로 간주하는 것 - 상기 제2 유사도 참조값은 상기 각 인접된 두 장의 샘플 장면 이미지 상에 이미 라벨링된 다른 타깃 식별자의 타깃 부위에 대응하는 샘플 특징 벡터 사이의 유사도 참조값임 -; 및
    상기 제1 손실 함수와 상기 제2 손실 함수 중 적어도 하나에 기반하여, 상기 초기 신경망 모델에 대하여 훈련을 수행하여 상기 특징 검출 모델을 취득하는 것을 포함하는
    것을 특징으로 하는 타깃 추적 방법.
  9. 제1항 내지 제8항 중 어느 한 항에 있어서,
    상기 복수의 장면 이미지 상에 나타나는 복수의 동일한 타깃 중 적어도 하나의 타깃의 사전 설정된 시간대 내의 운동 궤적이 타깃 운동 궤적에 부합되는지 여부를 결정하는 것을 더 포함하는
    것을 특징으로 하는 타깃 추적 방법.
  10. 제9항에 있어서,
    상기 복수 장의 장면 이미지는 교실 장면에 대응되고, 상기 타깃은 티칭 객체를 포함하며, 상기 타깃 운동 궤적은 티칭 임무 중 상기 티칭 객체에 대하여 지정한 적어도 한 가지 운동 궤적을 포함하는
    것을 특징으로 하는 타깃 추적 방법.
  11. 타깃 추적 장치에 있어서,
    동일한 장면에 대응하는 복수 장의 장면 이미지를 취득하는 취득 모듈;
    상기 복수 장의 장면 이미지 중의 각 장의 장면 이미지에 대하여 특징 추출 처리 및 타깃 부위 검출을 수행하여, 상기 각 장의 장면 이미지의 특징 정보 및 상기 각 장의 장면 이미지 상의 복수의 타깃 부위의 위치를 취득하는 처리 모듈;
    상기 각 장의 장면 이미지의 특징 정보 중 상기 복수의 타깃 부위의 위치에 각각 대응하는 타깃 특징 정보를 취득하는 특징 정보 결정 모듈; 및
    취득된 상기 복수의 타깃 부위의 위치에 각각 대응하는 타깃 특징 정보에 기반하여, 상기 복수 장의 장면 이미지에 나타나는 복수의 동일한 타깃을 결정하는 바, 각 장의 장면 이미지에는 상기 복수의 동일한 타깃의 일부 또는 전부 타깃이 포함되는 타깃 결정 모듈을 포함하는
    것을 특징으로 하는 타깃 추적 장치.
  12. 컴퓨터 판독가능 저장 매체에 있어서,
    상기 저장 매체에는 컴퓨터 프로그램이 저장되고, 상기 컴퓨터 프로그램은 제1항 내지 제10항 중 어느 한 항의 타깃 추적 방법을 실행하는
    것을 특징으로 하는 컴퓨터 판독가능 저장 매체.
  13. 타깃 추적 장치에 있어서,
    프로세서;
    상기 프로세서가 실행 가능한 명령을 저장하는 기억장치를 포함하는 바;
    상기 프로세서는 상기 기억장치에 저장된 실행 가능한 명령을 호출하여, 제1항 내지 제10항 중 어느 한 항의 타깃 추적 방법을 구현하도록 구성되는
    것을 특징으로 하는 타깃 추적 장치.
  14. 컴퓨터 프로그램에 있어서,
    상기 컴퓨터 프로그램이 프로세서에 기반하여 실행될 때, 제1항 내지 제10항 중 어느 한 항의 타깃 추적 방법을 구현할 수 있는
    것을 특징으로 하는 컴퓨터 프로그램.
KR1020227002703A 2020-04-28 2021-04-16 타깃 추적 방법 및 장치, 저장 매체 및 컴퓨터 프로그램 KR20220024986A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202010352365.6 2020-04-28
CN202010352365.6A CN111539991B (zh) 2020-04-28 2020-04-28 目标跟踪方法及装置、存储介质
PCT/CN2021/087870 WO2021218671A1 (zh) 2020-04-28 2021-04-16 目标跟踪方法及装置、存储介质及计算机程序

Publications (1)

Publication Number Publication Date
KR20220024986A true KR20220024986A (ko) 2022-03-03

Family

ID=71977335

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020227002703A KR20220024986A (ko) 2020-04-28 2021-04-16 타깃 추적 방법 및 장치, 저장 매체 및 컴퓨터 프로그램

Country Status (5)

Country Link
JP (1) JP7292492B2 (ko)
KR (1) KR20220024986A (ko)
CN (1) CN111539991B (ko)
TW (1) TWI769787B (ko)
WO (1) WO2021218671A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024071587A1 (ko) * 2022-09-29 2024-04-04 삼성전자 주식회사 객체를 추적하는 방법 및 전자 장치

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111539991B (zh) * 2020-04-28 2023-10-20 北京市商汤科技开发有限公司 目标跟踪方法及装置、存储介质
CN113129339B (zh) * 2021-04-28 2023-03-10 北京市商汤科技开发有限公司 一种目标跟踪方法、装置、电子设备及存储介质
CN114783043B (zh) * 2022-06-24 2022-09-20 杭州安果儿智能科技有限公司 一种儿童行为轨迹定位方法和系统
CN115880614B (zh) * 2023-01-19 2023-05-12 清华大学 一种宽视场高分辨视频高效智能检测方法及系统
CN116721045B (zh) * 2023-08-09 2023-12-19 经智信息科技(山东)有限公司 一种多ct图像融合的方法及装置

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009020897A (ja) 2002-09-26 2009-01-29 Toshiba Corp 画像解析方法、画像解析装置、画像解析プログラム
JP4580189B2 (ja) 2004-05-28 2010-11-10 セコム株式会社 センシング装置
TWI492188B (zh) * 2008-12-25 2015-07-11 Univ Nat Chiao Tung 利用多攝影機自動偵測與追蹤多目標的方法及系統
CN108875465B (zh) * 2017-05-26 2020-12-11 北京旷视科技有限公司 多目标跟踪方法、多目标跟踪装置以及非易失性存储介质
EP3613208A4 (en) * 2017-06-02 2020-06-24 SZ DJI Technology Co., Ltd. SYSTEMS AND METHODS FOR TRACKING MULTIPLE OBJECTIVES AND AUTOFOCUSING BASED ON DEEP MACHINE LEARNING AND LASER RADAR
CN109214238B (zh) * 2017-06-30 2022-06-28 阿波罗智能技术(北京)有限公司 多目标跟踪方法、装置、设备及存储介质
US9946960B1 (en) 2017-10-13 2018-04-17 StradVision, Inc. Method for acquiring bounding box corresponding to an object in an image by using convolutional neural network including tracking network and computing device using the same
CN108491816A (zh) * 2018-03-30 2018-09-04 百度在线网络技术(北京)有限公司 在视频中进行目标跟踪的方法和装置
CN110866428B (zh) * 2018-08-28 2023-12-15 杭州海康威视数字技术股份有限公司 目标跟踪方法、装置、电子设备及存储介质
CN109522843B (zh) * 2018-11-16 2021-07-02 北京市商汤科技开发有限公司 一种多目标跟踪方法及装置、设备和存储介质
CN109800624A (zh) * 2018-11-27 2019-05-24 上海眼控科技股份有限公司 一种基于行人重识别的多目标跟踪方法
CN109859238B (zh) * 2019-03-14 2021-03-12 郑州大学 一种基于多特征最优关联的在线多目标跟踪方法
CN110163890B (zh) * 2019-04-24 2020-11-06 北京航空航天大学 一种面向空基监视的多目标跟踪方法
CN110889464B (zh) * 2019-12-10 2021-09-14 北京市商汤科技开发有限公司 检测目标对象的神经网络训练、目标对象的检测方法及装置
CN111539991B (zh) * 2020-04-28 2023-10-20 北京市商汤科技开发有限公司 目标跟踪方法及装置、存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024071587A1 (ko) * 2022-09-29 2024-04-04 삼성전자 주식회사 객체를 추적하는 방법 및 전자 장치

Also Published As

Publication number Publication date
JP2022542566A (ja) 2022-10-05
WO2021218671A1 (zh) 2021-11-04
TW202141424A (zh) 2021-11-01
TWI769787B (zh) 2022-07-01
CN111539991B (zh) 2023-10-20
JP7292492B2 (ja) 2023-06-16
CN111539991A (zh) 2020-08-14

Similar Documents

Publication Publication Date Title
KR20220024986A (ko) 타깃 추적 방법 및 장치, 저장 매체 및 컴퓨터 프로그램
US11048948B2 (en) System and method for counting objects
CN110378259A (zh) 一种面向监控视频的多目标行为识别方法及系统
CN113536996B (zh) 一种基于大量真实人群运动视频的人群运动仿真方法
CN112801018A (zh) 一种跨场景目标自动识别与追踪方法及应用
CN109522790A (zh) 人体属性识别方法、装置、存储介质及电子设备
CN109214366A (zh) 局部目标重识别方法、装置及系统
CN110659391A (zh) 一种视频侦查方法及装置
CN112287827A (zh) 基于智慧灯杆的复杂环境行人口罩佩戴检测方法及系统
CN110503017A (zh) 基于图像处理的智慧节能室内人数检测系统与方法
US20170053172A1 (en) Image processing apparatus, and image processing method
CN109740527B (zh) 一种视频帧中图像处理方法
CN115116137A (zh) 基于轻量化YOLO v5网络模型与时空记忆机制的行人检测方法
CN114677644A (zh) 一种基于教室监控视频的学生入座分布识别方法及系统
KR101529620B1 (ko) 이동 방향별 보행자 계수 방법 및 장치
CN114066999A (zh) 基于三维建模的目标定位系统及方法
CN111563492B (zh) 一种跌倒检测方法、跌倒检测装置及存储装置
CN105678268B (zh) 一种基于双区域学习的地铁站场景行人计数实现方法
CN112329550A (zh) 基于弱监督学习的受灾建筑快速定位评估方法及装置
CN114821486B (zh) 一种电力作业场景下人员识别方法
Miyazato et al. Real-time estimation of human visual attention with dynamic Bayesian network and MCMC-based particle filter
CN115311518A (zh) 一种获取视觉属性信息的方法、装置、介质及电子设备
Psarras et al. Visual saliency in navigation: Modelling navigational behaviour using saliency and depth analysis
KR101467360B1 (ko) 이동 방향별 보행자 계수 방법 및 장치
Kimura et al. Dynamic Markov random fields for stochastic modeling of visual attention

Legal Events

Date Code Title Description
WITB Written withdrawal of application