KR20210012012A - 물체 추적 방법들 및 장치들, 전자 디바이스들 및 저장 매체 - Google Patents

물체 추적 방법들 및 장치들, 전자 디바이스들 및 저장 매체 Download PDF

Info

Publication number
KR20210012012A
KR20210012012A KR1020207037347A KR20207037347A KR20210012012A KR 20210012012 A KR20210012012 A KR 20210012012A KR 1020207037347 A KR1020207037347 A KR 1020207037347A KR 20207037347 A KR20207037347 A KR 20207037347A KR 20210012012 A KR20210012012 A KR 20210012012A
Authority
KR
South Korea
Prior art keywords
frame image
current frame
target object
filtering information
video
Prior art date
Application number
KR1020207037347A
Other languages
English (en)
Inventor
창 왕
정 주
보 리
웨이 우
Original Assignee
베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드 filed Critical 베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드
Publication of KR20210012012A publication Critical patent/KR20210012012A/ko

Links

Images

Classifications

    • G06K9/00724
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/248Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • G06K9/6215
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/255Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • G06V20/42Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • G06K2209/21
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/62Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Closed-Circuit Television Systems (AREA)

Abstract

본 개시내용의 실시예들은 물체 추적 방법 및 장치, 전자 디바이스, 및 저장 매체를 개시한다. 본 방법은: 비디오의 기준 프레임 이미지 내의 대상 물체에 따라, 비디오의 현재 프레임 이미지 내의 적어도 하나의 후보 물체를 검출하는 단계; 비디오의 적어도 하나의 이전 프레임 이미지 내의 간섭 물체를 획득하는 단계; 획득된 간섭 물체에 따라 적어도 하나의 후보 물체의 필터링 정보를 조정하는 단계; 및 필터링 정보가 미리 결정된 조건을 충족하는 적어도 하나의 후보 물체 중 하나를 현재 프레임 이미지 내의 대상 물체로서 결정하는 단계를 포함한다. 본 개시내용의 실시예들은 물체 추적의 판별 능력을 개선할 수 있다.

Description

물체 추적 방법들 및 장치들, 전자 디바이스들 및 저장 매체
본 개시내용은 2018년 8월 7일자로 중국 특허청에 출원되고 발명의 명칭이 "OBJECT TRACKING METHODS AND APPARATUSES, ELECTRONIC DEVICES AND STORAGE MEDIA"인 중국 특허 출원 제CN201810893022.3호에 대한 우선권을 주장하며, 이 출원은 그 전체가 본 명세서에 참고로 포함된다.
본 개시내용은 컴퓨터 비전 기술에 관한 것으로, 특히, 물체 추적 방법 및 장치, 전자 디바이스, 및 저장 매체에 관한 것이다.
물체 추적은 카메라의 초점 추적, 무인 항공기의 자동 물체 추적, 인체 추적, 교통 모니터링 시스템에서의 차량 추적, 지능형 상호작용 시스템에서의 사람 얼굴 추적과 제스처 추적 등과 같은, 많은 분야에서 광범위한 응용을 갖는, 컴퓨터 비전 연구의 핫스팟들 중 하나이다.
본 개시내용의 실시예들은 물체 추적을 위한 기술적 해결책을 제공한다.
본 개시내용의 실시예들의 양태에 따르면, 물체 추적 방법이 제공되며, 본 방법은:
비디오의 기준 프레임 이미지 내의 대상 물체에 따라, 비디오의 현재 프레임 이미지 내의 적어도 하나의 후보 물체를 검출하는 단계;
비디오의 적어도 하나의 이전 프레임 이미지 내의 간섭 물체를 획득하는 단계;
획득된 간섭 물체에 따라 적어도 하나의 후보 물체의 필터링 정보를 조정하는 단계; 및
필터링 정보가 미리 결정된 조건을 충족하는 적어도 하나의 후보 물체 중 하나를 현재 프레임 이미지 내의 대상 물체로서 결정하는 단계를 포함한다.
본 개시내용의 실시예들의 다른 양태에 따르면, 물체 추적 장치는:
비디오의 기준 프레임 이미지 내의 대상 물체에 따라 비디오의 현재 프레임 이미지 내의 적어도 하나의 후보 물체를 검출하도록 구성된 검출 유닛;
비디오의 적어도 하나의 이전 프레임 이미지 내의 간섭 물체를 획득하도록 구성된 획득 유닛;
획득된 간섭 물체에 따라 적어도 하나의 후보 물체의 필터링 정보를 조정하도록 구성된 조정 유닛; 및
필터링 정보가 미리 결정된 조건을 충족하는 적어도 하나의 후보 물체 중 하나를 현재 프레임 이미지 내의 대상 물체로서 결정하도록 구성된 결정 유닛을 포함한다.
본 개시내용의 실시예들의 또 다른 양태에 따르면, 상기 실시예들 중 임의의 것에 따른 장치를 포함하는 전자 디바이스가 제공된다.
본 개시내용의 실시예들의 또 다른 양태에 따르면, 전자 디바이스가 제공되며, 본 전자 디바이스는:
실행가능한 명령어들을 저장하는 메모리; 및
실행가능한 명령어들을 실행하여 상기 실시예들 중 어느 하나에 따른 방법을 완료하도록 구성된 프로세서를 포함한다.
본 개시내용의 실시예들의 또 다른 양태에 따르면, 컴퓨터 판독가능 코드들을 포함하는 컴퓨터 프로그램이 제공되며, 컴퓨터 판독가능 코드들이 디바이스 상에서 실행될 때, 디바이스 내의 프로세서는 상기 실시예들 중 어느 하나에 따른 방법을 구현하기 위한 명령어들을 실행하게 한다.
본 개시내용의 실시예들의 또 다른 양태에 따르면, 컴퓨터 판독가능 명령어들을 저장하기 위한 컴퓨터 저장 매체가 제공되며, 컴퓨터 판독가능 명령어들이 실행될 때, 상기 실시예들 중 어느 하나에 따른 방법이 구현된다.
본 개시내용의 상기 실시예들에서 제공된 물체 추적 방법 및 장치, 전자 디바이스, 컴퓨터 프로그램 및 저장 매체에 기초하여, 비디오의 기준 프레임 이미지 내의 대상 물체에 따라, 비디오의 현재 프레임 이미지 내의 적어도 하나의 후보 물체가 검출되고; 비디오의 적어도 하나의 이전 프레임 이미지 내의 간섭 물체가 획득되고; 획득된 간섭 물체에 따라 적어도 하나의 후보 물체의 필터링 정보가 조정되고; 필터링 정보가 미리 결정된 조건을 충족하는 적어도 하나의 후보 물체 중 하나가 현재 프레임 이미지 내의 대상 물체로서 결정된다. 본 개시내용의 실시예들에서의 물체 추적 동안, 현재 프레임 이미지 이전의 이전 프레임 이미지 내의 간섭 물체를 사용함으로써, 후보 물체들의 필터링 정보가 조정된다. 후보 물체들의 필터링 정보가 현재 프레임 이미지 내의 대상 물체를 결정하는데 사용될 때, 후보 물체들 내의 간섭 물체가 효과적으로 억제될 수 있고, 후보 물체들로부터 대상 물체가 획득된다. 현재 프레임 이미지 내의 대상 물체를 결정하는 프로세스에서, 결정 결과에 대한 대상 물체 주위의 간섭 물체들의 영향이 효과적으로 억제될 수 있고, 따라서 대상 물체 추적의 식별 능력이 향상될 수 있다.
본 개시내용의 기술적 해결책들이 첨부 도면들 및 실시예들을 통해 이하에서 상세히 추가로 기술될 것이다.
설명의 일부를 형성하는 첨부 도면들은 본 개시내용의 실시예들을 설명하고, 그 설명과 함께 본 개시내용의 원리들을 설명하는 역할을 한다.
본 개시내용은 첨부 도면들을 참조하여 다음의 상세한 설명으로부터 더 명확하게 이해될 수 있다.
도 1은 본 개시내용의 일부 실시예들에 따른 물체 추적 방법의 흐름도이고;
도 2는 본 개시내용의 일부 실시예들에 따른 물체 추적 방법의 흐름도이고;
도 3은 본 개시내용의 일부 실시예들에 따른 물체 추적 방법의 흐름도이고;
도 4a 내지 도 4c는 본 개시내용의 일부 실시예들에 따른 물체 추적 방법의 응용 예의 개략도이고;
도 4d 및 도 4e는 본 개시내용의 일부 실시예들에 따른 물체 추적 방법의 다른 응용 예의 개략도이고;
도 5는 본 개시내용의 일부 실시예들에 따른 물체 추적 장치의 개략적인 구조도이고;
도 6은 본 개시내용의 일부 실시예들에 따른 물체 추적 장치의 개략적인 구조도이고;
도 7은 본 개시내용의 일부 실시예들에 의해 제공되는 전자 디바이스의 개략적인 구조도이다.
이제, 본 개시내용의 다양한 예시적인 실시예들이 첨부된 도면들을 참조하여 상세히 설명될 것이다. 이러한 실시예들에 제시되는 컴포넌트들 및 단계들의 상대적 배열들, 수치 표현들, 및 수치 값들은 달리 특정되지 않는 한 본 개시내용의 범위를 한정하지 않는다는 점이 주목되어야 한다.
본 개시내용의 실시예들에서, "복수의"는 2개 이상을 지칭할 수 있고, "적어도 하나"는 1개, 2개 이상을 지칭할 수 있다는 점이 또한 이해되어야 한다.
본 기술분야의 통상의 기술자들은 본 개시내용의 실시예들에서 "제1" 및 "제2"와 같은 용어들이 상이한 단계들, 디바이스들, 또는 모듈들 등을 구별하는데 사용될 뿐이고, 임의의 특정 기술적 의미를 표현하지도 않고 그들 사이의 필요한 논리적 순서를 표현하지도 않는다는 것을 이해할 수 있다.
본 개시내용의 실시예들에서 언급된 임의의 컴포넌트, 데이터, 또는 구조는 맥락에서의 반대의 동기를 명시적으로 정의하거나 제공하지 않고 컴포넌트들, 데이터, 또는 구조들 중 하나 이상으로서 일반적으로 이해될 수도 있다는 것이 또한 이해되어야 한다.
본 개시내용의 다양한 실시예들의 설명은 다양한 실시예들 사이의 차이들을 강조하는 것에 초점을 맞추고, 동일하거나 유사한 부분들은 서로 참조될 수 있다는 점이 또한 이해되어야 한다. 간략화를 위해, 동일하거나 유사한 부분들은 본 명세서에서 다시 설명되지 않을 것이다.
한편, 설명의 편의를 위해, 도면들에 도시된 다양한 부분들의 치수들은 실제 비례 관계들에 따라 도시되지 않았다는 것을 이해해야 한다.
적어도 하나의 예시적인 실시예에 대한 다음 설명은 실제적으로 예시적인 것일 뿐이며, 본 개시내용 및 그 응용 또는 사용을 제한하려는 의도는 아니다.
본 기술분야의 통상의 기술자에게 공지된 기술들, 방법들, 및 디바이스들은 상세하게 논의되지 않을 수 있지만, 적절한 경우, 그 기술들, 방법들, 및 디바이스들은 본 명세서의 일부로서 간주되어야 한다.
유사한 참조 부호들 및 문자들은 다음 도면들에서 유사한 아이템들을 나타내고, 따라서, 어떤 아이템이 하나의 도면에서 정의되면, 그 추가의 논의는 다음 도면들에서 필요하지 않다는 점이 주목되어야 한다.
또한, 본 개시내용에서 용어 "및/또는"은 연관된 객체들을 설명하기 위한 연관 관계일 뿐이며, 3개의 관계가 존재할 수 있다는 것을 표시하는데, 예를 들어, A 및/또는 B는 3개의 경우: A 단독, A와 B 양쪽 모두, 및 B 단독으로 존재한다는 것을 표시할 수 있다. 또한, 본 개시내용에서 문자 "/"는 전방 및 후방 관련 객체들이 "또는"의 관계라는 것을 일반적으로 나타낸다.
본 개시내용의 실시예들은 다수의 다른 범용 또는 특수 목적 컴퓨팅 시스템들, 환경들 또는 구성들에서 동작할 수도 있는 컴퓨터 시스템/서버에 적용될 수도 있다. 컴퓨터 시스템/서버와 함께 사용하기에 적합한 잘 알려진 컴퓨팅 시스템들, 환경들 및/또는 구성들의 예는 개인용 컴퓨터 시스템들, 서버 컴퓨터 시스템들, 씬 클라이언트(thin client)들, 씨크 클라이언트(thick client)들, 핸드-헬드 또는 랩톱 디바이스들, 마이크로프로세서-기반 시스템들, 셋톱 박스들, 프로그램가능 가전 제품들, 네트워크 개인용 컴퓨터들, 미니컴퓨터 시스템들, 메인프레임 컴퓨터 시스템들, 및 상기한 것 중 임의의 것을 포함하는 분산 클라우드 컴퓨팅 기술 환경들 등을 포함하지만, 이들에 한정되지 않는다.
컴퓨터 시스템/서버는 컴퓨터 시스템에 의해 실행되는, 프로그램 모듈들과 같은 컴퓨터 시스템-실행가능 명령어들의 일반적인 맥락에서 설명될 수 있다. 일반적으로, 프로그램 모듈들은 특정 작업들을 수행하거나 특정 추상 데이터 타입들을 구현하는 루틴들, 프로그램들, 대상 프로그램들, 컴포넌트들, 로직, 데이터 구조들 등을 포함할 수 있다. 컴퓨터 시스템/서버는 통신 네트워크를 통해 링크된 원격 처리 디바이스에 의해 작업들이 수행되는 분산 클라우드 컴퓨팅 환경에서 구현될 수 있다. 분산 클라우드 컴퓨팅 환경에서, 프로그램 모듈들은 저장 디바이스를 포함하는 로컬 또는 원격 컴퓨팅 시스템의 저장 매체 상에 위치될 수 있다.
도 1은 본 개시내용의 일부 실시예들에 따른 물체 추적 방법의 흐름도이다. 도 1에 도시된 바와 같이, 본 방법은 동작들 102-108을 포함한다.
동작 102에서, 비디오의 기준 프레임 이미지 내의 대상 물체에 따라 비디오의 현재 프레임 이미지 내의 적어도 하나의 후보 물체가 검출된다.
이 실시예에서, 물체 추적을 위한 비디오는 비디오 캡처 디바이스로부터 획득된 비디오일 수 있다. 예를 들어, 비디오 캡처 디바이스는 비디오 카메라, 픽업 헤드 등을 포함할 수 있다. 물체 추적을 위한 비디오는 저장 디바이스로부터 획득된 비디오일 수도 있다. 예를 들어, 저장 디바이스는 광 디스크, 하드 디스크, U 디스크 등을 포함할 수 있다. 물체 추적을 위한 비디오는 네트워크 서버로부터 획득된 비디오일 수도 있다. 처리될 비디오를 획득하는 방식은 이 실시예에서 한정되지 않는다. 기준 프레임 이미지는 비디오의 제1 프레임 이미지일 수 있다. 기준 프레임 이미지는 비디오에 대해 물체 추적 처리를 수행하기 위한 제1 프레임 이미지일 수도 있다. 기준 프레임 이미지는 비디오의 중간 프레임 이미지일 수도 있다. 기준 프레임 이미지의 선택은 이 실시예에서 한정되지 않는다. 현재 프레임 이미지는 비디오의 기준 프레임 이미지 이외의 프레임 이미지일 수 있고, 기준 프레임 이미지 전 또는 후일 수 있으며, 이는 이 실시예에서 한정되지 않는다. 선택적인 예에서, 비디오의 현재 프레임 이미지는 기준 프레임 이미지 이후이다.
선택적으로, 기준 프레임 이미지 내의 대상 물체의 이미지와 현재 프레임 이미지 사이의 상관 관계가 결정될 수 있고, 상관 관계에 따라 현재 프레임 이미지 내의 적어도 하나의 후보 물체의 경계 박스들 및 필터링 정보가 획득될 수 있다. 선택적인 예에서, 기준 프레임 이미지 내의 대상 물체의 이미지와 현재 프레임 이미지 사이의 상관 관계는 기준 프레임 이미지 내의 대상 물체의 이미지의 제1 특징 및 현재 프레임 이미지의 제2 특징에 따라 결정될 수 있다. 예를 들어, 상관 관계는 콘볼루션 처리에 의해 획득된다. 이 실시예는 기준 프레임 이미지 내의 대상 물체의 이미지와 현재 프레임 이미지 사이의 상관 관계를 결정하는 방식을 제한하지 않는다. 후보 물체의 경계 박스는 예를 들어, NMS(non-maximum suppression)에 의해 획득될 수 있다. 후보 물체의 필터링 정보는 예를 들어, 후보 물체의 경계 박스의 스코어, 후보 물체를 선택할 확률 등과 같은 정보일 수 있다. 이 실시예는 상관 관계에 기초하여 후보 물체의 경계 박스 및 필터링 정보를 획득하는 방식을 제한하지 않는다.
선택적인 예에서, 동작 102는 메모리에 저장된 대응하는 명령어들을 호출하는 프로세서에 의해 실행될 수 있거나, 또는 프로세서에 의해 동작되는 검출 유닛에 의해 실행될 수 있다.
동작 104에서, 비디오의 적어도 하나의 이전 프레임 이미지 내의 간섭 물체가 획득된다.
이 실시예에서, 적어도 하나의 이전 프레임 이미지는 기준 프레임 이미지, 및/또는 기준 프레임 이미지와 현재 프레임 이미지 사이에 위치되는 적어도 하나의 중간 프레임 이미지를 포함할 수 있다.
선택적으로, 비디오의 적어도 하나의 이전 프레임 이미지 내의 간섭 물체는 미리 결정된 간섭 물체 세트에 따라 획득될 수 있다. 간섭 물체 세트를 미리 결정함으로써, 비디오의 각각의 프레임 이미지에 대해 물체 추적 처리를 수행할 때, 대상 물체로서 결정되지 않은 적어도 하나의 후보 물체 중 하나 이상이 현재 프레임 이미지 내의 간섭 물체들로서 결정되고, 간섭 물체 세트에 들어간다. 선택적인 예에서, 대상 물체로서 결정되지 않고 필터링 정보가 미리 결정된 간섭 물체 조건을 충족하는 적어도 하나의 후보 물체 중 하나 이상이 간섭 물체들로서 결정되고 간섭 물체 세트에 들어갈 수 있다. 예를 들어, 필터링 정보는 경계 박스의 스코어이고, 미리 결정된 간섭 물체 조건은 경계 박스의 스코어가 미리 결정된 임계값보다 큰 것일 수 있다.
선택적인 예에서, 비디오의 모든 이전 프레임 이미지들 내의 간섭 물체들이 획득될 수 있다.
선택적인 예에서, 동작 104는 메모리에 저장된 대응하는 명령어들을 호출하는 프로세서에 의해 실행될 수 있거나, 또는 프로세서에 의해 동작되는 획득 유닛에 의해 실행될 수 있다.
동작 106에서, 획득된 간섭 물체에 따라 적어도 하나의 후보 물체의 필터링 정보가 조정된다.
선택적으로, 적어도 하나의 후보 물체 각각에 대해, 후보 물체와 획득된 간섭 물체 사이의 제1 유사도가 결정될 수 있고, 후보 물체의 필터링 정보는 제1 유사도에 따라 조정될 수 있다. 선택적인 예에서, 후보 물체와 획득된 간섭 물체 사이의 제1 유사도는 후보 물체의 특징 및 획득된 간섭 물체의 특징에 기초하여 결정될 수 있다. 선택적인 예에서, 필터링 정보는 경계 박스의 스코어이다. 후보 물체와 획득된 간섭 물체 사이의 제1 유사도가 비교적 높을 때, 후보 물체의 경계 박스의 스코어는 감소될 수 있고, 후보 물체와 획득된 간섭 물체 사이의 제1 유사도가 비교적 낮을 때, 후보 물체의 경계 박스의 스코어는 증가될 수 있거나 또는 스코어는 변경되지 않은 채로 유지될 수 있다.
선택적으로, 획득된 간섭 물체들의 수가 하나 초과일 때, 후보 물체와 모든 획득된 간섭 물체 사이의 유사도들의 가중 평균이 계산될 수 있고, 가중 평균은 후보 물체의 필터링 정보를 조정하는데 사용된다. 가중 평균에서 각각의 간섭 물체의 가중치는 간섭 물체가 대상 물체 선택을 간섭하는 간섭 정도와 관련된다. 예를 들어, 간섭 물체가 대상 물체 선택을 간섭하는 간섭 정도가 클수록, 간섭 물체의 가중치는 더 커진다. 선택적인 예에서, 필터링 정보는 경계 박스의 스코어이고, 후보 물체와 획득된 간섭 물체 사이의 상관 계수는 후보 물체와 획득된 간섭 물체 사이의 제1 유사도를 나타내는데 사용될 수 있다. 기준 프레임 이미지 내의 대상 물체와 후보 물체 사이의 상관 계수와 후보 물체와 획득된 간섭 물체들 사이의 제1 유사도들의 가중 평균 사이의 차이는 후보 물체의 경계 박스의 스코어를 조정하는데 사용된다.
선택적인 예에서, 동작 106은 메모리에 저장된 대응하는 명령어들을 호출하는 프로세서에 의해 실행될 수 있거나, 또는 프로세서에 의해 동작되는 조정 유닛에 의해 실행될 수 있다.
동작 108에서, 필터링 정보가 미리 결정된 조건을 충족하는 적어도 하나의 후보 물체 중 하나가 현재 프레임 이미지 내의 대상 물체로서 결정된다.
선택적으로, 필터링 정보가 미리 결정된 조건을 충족하는 후보 물체의 경계 박스는 현재 프레임 이미지 내의 대상 물체의 경계 박스인 것으로 결정될 수 있다. 선택적인 예에서, 필터링 정보는 경계 박스의 스코어이다. 후보 물체들은 후보 물체들의 경계 박스들의 스코어들에 따라 순위화될 수 있다. 최고 스코어를 갖는 후보 물체의 경계 박스는 현재 프레임 이미지 내의 대상 물체의 경계 박스로서 사용되어 현재 프레임 이미지 내의 대상 물체를 결정한다.
선택적으로, 후보 물체들의 경계 박스들의 위치들 및 형상들은 비디오의 현재 프레임 이미지에 인접한 이전 프레임 이미지 내의 대상 물체의 경계 박스의 위치 및 형상과 비교될 수 있고, 현재 프레임 이미지 내의 후보 물체들의 경계 박스들의 스코어들은 비교 결과에 따라 조정되고, 현재 프레임 이미지 내의 후보 물체들의 경계 박스들의 조정된 스코어들은 재순위화되고, 재순위화한 후에 최고 스코어를 갖는 후보 물체의 경계 박스는 현재 프레임 이미지 내의 대상 물체의 경계 박스로서 결정된다. 예를 들어, 이전 프레임 이미지와 비교하여, 위치 시프트가 비교적 크고 형상 변화가 비교적 큰 후보 물체의 경계 박스의 스코어가 감소된다.
선택적으로, 필터링 정보가 미리 결정된 조건을 충족하는 후보 물체의 경계 박스를 현재 프레임 이미지 내의 대상 물체의 경계 박스로서 결정한 후에, 대상 물체의 경계 박스는 현재 프레임 이미지 내의 대상 물체의 위치를 마킹하기 위해 현재 프레임 이미지에 추가로 표시될 수 있다.
선택적인 예에서, 동작 108은 메모리에 저장된 대응하는 명령어들을 호출하는 프로세서에 의해 실행될 수 있거나, 또는 프로세서에 의해 동작되는 결정 유닛에 의해 실행될 수 있다.
이 실시예에서 제공되는 물체 추적 방법에 기초하여, 비디오의 기준 프레임 이미지 내의 대상 물체에 따라, 비디오의 현재 프레임 이미지 내의 적어도 하나의 후보 물체가 검출되고; 비디오의 적어도 하나의 이전 프레임 이미지 내의 간섭 물체가 획득되고; 획득된 간섭 물체에 따라 적어도 하나의 후보 물체의 필터링 정보가 조정되고; 필터링 정보가 미리 결정된 조건을 충족하는 적어도 하나의 후보 물체 중 하나가 현재 프레임 이미지 내의 대상 물체로서 결정된다. 물체 추적 동안, 현재 프레임 이미지 이전의 이전 프레임 이미지 내의 간섭 물체를 사용하여, 후보 물체들의 필터링 정보가 조정된다. 후보 물체들의 필터링 정보가 현재 프레임 이미지 내의 대상 물체를 결정하는데 사용될 때, 후보 물체들 내의 간섭 물체가 효과적으로 억제될 수 있고, 후보 물체들로부터 대상 물체가 획득된다. 현재 프레임 이미지 내의 대상 물체를 결정하는 프로세스에서, 결정 결과에 대한 대상 물체 주위의 간섭 물체들의 영향이 효과적으로 억제될 수 있고, 따라서 물체 추적의 식별 능력이 향상될 수 있다.
도 4a 내지 도 4c는 본 개시내용의 일부 실시예들에 따른 물체 추적 방법의 응용 예의 개략도들이다. 도 4a 내지 도 4c에 도시된 바와 같이, 도 4a는 물체 추적을 위한 처리될 비디오의 현재 프레임 이미지이다. 도 4a에서, 박스들 a, b, d, e, f, 및 g는 현재 프레임 이미지 내의 후보 물체들의 경계 박스들이고, 박스 c는 현재 프레임 이미지 내의 대상 물체의 경계 박스이다. 도 4b는 기존의 물체 추적 방법을 사용하여 획득된 현재 프레임 이미지 내의 후보 물체들의 경계 박스들의 스코어들의 개략도이다. 도 4b로부터, 최고 스코어를 획득할 것으로 예상하는 대상 물체, 즉 박스 c에 대응하는 대상 물체는 간섭 물체들의 영향으로 인해 최고 스코어를 얻지 못했음을 알 수 있다. 도 4c는 본 개시내용의 일부 실시예들에 의해 제공되는 물체 추적 방법을 사용하여 획득된 현재 프레임 이미지 내의 후보 물체들의 경계 박스들의 스코어들의 개략도이다. 도 4c로부터, 최고 스코어를 획득할 것으로 예상하는 대상 물체, 즉, 박스 c에 대응하는 대상 물체는 최고 스코어를 얻고, 박스 c 주위의 간섭 물체들의 스코어들은 억제된다는 것을 알 수 있다.
일부 실시예들에서, 물체 추적 방법은 비디오의 기준 프레임 이미지와 현재 프레임 이미지 사이의 적어도 하나의 중간 프레임 이미지 내의 대상 물체를 획득하는 단계, 및 적어도 하나의 중간 프레임 이미지 내의 대상 물체에 따라 적어도 하나의 후보 물체의 필터링 정보를 최적화하는 단계를 추가로 포함할 수 있다. 선택적인 예에서, 적어도 하나의 후보 물체 각각에 대해, 적어도 하나의 중간 프레임 이미지 내의 대상 물체와 후보 물체 사이의 제2 유사도가 결정될 수 있고, 그 후 제2 유사도에 따라 후보 물체의 필터링 정보가 최적화될 수 있다. 예를 들어, 적어도 하나의 중간 프레임 이미지 내의 대상 물체와 후보 물체 사이의 제2 유사도는 후보 물체의 특징 및 적어도 하나의 중간 프레임 이미지 내의 대상 물체의 특징에 기초하여 결정될 수 있다.
선택적으로, 대상 물체는 대상 물체가 결정된 적어도 하나의 중간 프레임 이미지로부터 그리고 비디오의 기준 프레임 이미지와 현재 프레임 이미지 사이에서 획득될 수 있다. 선택적인 예에서, 대상 물체가 결정된 모든 중간 프레임 이미지들 내의 그리고 비디오의 기준 프레임 이미지와 현재 프레임 이미지 사이의 대상 물체가 획득될 수 있다.
선택적으로, 획득된 대상 물체들의 수가 하나 초과일 때, 후보 물체와 모든 획득된 대상 물체 사이의 유사도들의 가중 평균이 계산될 수 있고, 가중 평균은 후보 물체의 필터링 정보를 최적화하는데 사용된다. 가중 평균에서의 각각의 대상 물체의 가중치는 대상 물체가 현재 프레임 이미지 내의 대상 물체 선택에 영향을 미치는 영향의 정도에 관련된다. 예를 들어, 현재 프레임 이미지에 더 가까운 프레임 이미지 내의 대상 물체의 가중치도 더 크다. 선택적인 예에서, 필터링 정보는 경계 박스의 스코어이고, 후보 물체와 획득된 간섭 물체 사이의 상관 계수는 후보 물체와 획득된 간섭 물체 사이의 제1 유사도를 나타내는데 사용될 수 있다. 후보 물체의 경계 박스의 스코어는 기준 프레임 이미지 내의 대상 물체와 후보 물체 사이의 상관 계수, 및 후보 물체와 획득된 대상 물체들 사이의 제2 유사도들의 가중 평균과 후보 물체와 획득된 간섭 물체들 사이의 제1 유사도들의 가중 평균 사이의 차이를 통해 조정될 수 있다.
이 실시예에서, 비디오의 기준 프레임 이미지와 현재 프레임 이미지 사이의 중간 프레임 이미지 내의 획득된 대상 물체를 후보 물체들의 필터링 정보를 최적화하는데 사용하여, 현재 프레임 이미지 내의 후보 물체들의 획득된 필터링 정보가 후보 물체들의 속성들을 보다 현실적으로 반영할 수 있게 한다. 이러한 방식으로, 처리될 비디오의 현재 프레임 이미지 내의 대상 물체의 위치를 결정할 때 보다 정확한 결정 결과가 획득될 수 있다.
일부 실시예들에서, 동작 102에서 비디오의 기준 프레임 이미지 내의 대상 물체에 따라 비디오의 현재 프레임 이미지 내의 적어도 하나의 후보 물체를 검출하기 전에, 현재 프레임 이미지 내의 검색 영역이 추가로 획득되어 계산 속도를 향상시킬 수 있다. 동작 102에서, 현재 프레임 이미지 내의 검색 영역 내에서 그리고 비디오의 기준 프레임 이미지 내의 대상 물체에 따라, 비디오의 현재 프레임 이미지 내의 적어도 하나의 후보 물체가 검출된다. 현재 프레임 이미지 내의 검색 영역을 획득하는 동작에 대해, 대상 물체가 현재 프레임 이미지에 나타날 수 있는 영역이 미리 결정된 검색 알고리즘으로 추정되고 가정될 수 있다.
선택적으로, 동작 108에서 필터링 정보가 미리 결정된 조건을 충족하는 적어도 하나의 후보 물체 중 하나를 현재 프레임 이미지 내의 대상 물체로서 결정한 후에, 비디오의 현재 프레임 이미지에 인접한 다음 프레임 이미지 내의 검색 영역은 현재 프레임 이미지 내의 대상 물체의 필터링 정보에 따라 결정될 수 있다. 현재 프레임 이미지 내의 대상 물체의 필터링 정보에 따라 비디오의 현재 프레임 이미지에 인접한 다음 프레임 이미지 내의 검색 영역을 결정하는 프로세스는 도 2와 관련하여 아래에 상세히 설명될 것이다. 도 2에 도시된 바와 같이, 프로세스는 동작들 202-206을 포함한다.
동작 202에서, 대상 물체의 필터링 정보가 제1 미리 결정된 임계값보다 작은지가 검출된다.
선택적으로, 제1 미리 결정된 임계값은 대상 물체의 필터링 정보 및 시야를 차단하거나(즉, 방해하거나) 또는 벗어나는 대상 물체의 상태에 따른 통계를 통해 결정될 수 있다. 선택적인 예에서, 필터링 정보는 대상 물체의 경계 박스의 스코어이다.
대상 물체의 필터링 정보가 제1 미리 결정된 임계값보다 작은 경우, 동작 204를 수행하고; 및/또는, 대상 물체의 필터링 정보가 제1 미리 결정된 임계값 이상인 경우, 동작 206을 수행한다.
동작 204에서, 검색 영역은 확장된 검색 영역이 현재 프레임 이미지를 커버할 때까지 미리 결정된 스텝 길이에 따라 점진적으로 확장되고, 확장된 검색 영역은 현재 프레임 이미지에 인접한 다음 프레임 이미지 내의 검색 영역으로서 사용된다.
선택적으로, 동작 204 후에, 비디오의 현재 프레임 이미지에 인접한 다음 프레임 이미지가 현재 프레임 이미지로서 사용될 수 있고, 현재 프레임 이미지 내의 대상 물체는 확장된 검색 영역에서 결정된다.
동작 206에서, 비디오의 현재 프레임 이미지에 인접한 다음 프레임 이미지가 현재 프레임 이미지로서 취해지고, 현재 프레임 이미지 내의 검색 영역이 획득된다.
선택적으로, 비디오의 현재 프레임 이미지에 인접한 다음 프레임 이미지를 현재 프레임 이미지로서 취하고 현재 프레임 이미지 내의 검색 영역을 획득한 후에, 현재 프레임 이미지 내의 대상 물체는 현재 프레임 이미지 내의 검색 영역 내에서 결정될 수 있다.
선택적인 예에서, 동작들 202-206은 메모리에 저장된 대응하는 명령어들을 호출하는 프로세서에 의해 실행될 수 있거나, 또는 프로세서에 의해 동작되는 검색 유닛에 의해 실행될 수 있다.
이 실시예에서, 현재 프레임 이미지 내의 대상 물체의 필터링 정보는 제1 미리 결정된 임계값과 비교된다. 현재 프레임 이미지 내의 대상 물체의 필터링 정보가 제1 미리 결정된 임계값보다 작을 때, 검색 영역은 확장된 검색 영역이 현재 프레임 이미지를 커버할 때까지 확장된다. 물체 추적을 위한 현재 프레임 이미지 내의 대상 물체가 차단되거나 또는 물체 추적을 위한 현재 프레임 이미지 내의 대상 물체가 시야를 벗어날 때, 현재 프레임 이미지와 동일한 확장된 검색 영역은 전체 현재 프레임 이미지를 커버하는데 사용될 수 있고, 다음 프레임 이미지에서 물체 추적을 수행할 때, 확장된 검색 영역은 전체 다음 프레임 이미지를 커버하는데 사용된다. 대상 물체가 다음 프레임 이미지에 나타날 때, 확장된 검색 영역이 전체 다음 프레임 이미지를 커버하기 때문에, 대상 물체가 검색 영역 외부에 나타나므로 대상 물체가 추적될 수 없는 상황이 발생하지 않고, 따라서 대상 물체의 장기간 추적이 실현될 수 있다.
일부 실시예들에서, 동작 204에서 확장된 검색 영역이 현재 프레임 이미지를 커버할 때까지 미리 결정된 스텝 길이에 따라 검색 영역을 점진적으로 확장한 후에, 비디오의 현재 프레임 이미지에 인접한 다음 프레임 이미지가 현재 프레임 이미지로서 사용될 수 있고, 확장된 검색 영역은 현재 프레임 이미지 내의 검색 영역으로서 사용되고, 현재 프레임 이미지 내의 대상 물체는 확장된 검색 영역 내에서 결정된다. 또한, 현재 프레임 이미지 내의 대상 물체의 필터링 정보에 따라, 현재 프레임 이미지 내의 검색 영역이 복원되는지가 결정될 수 있다. 현재 프레임 이미지 내의 대상 물체의 필터링 정보에 따라 현재 프레임 이미지 내의 검색 영역이 복원되는지를 결정하는 프로세스는 도 3과 관련하여 아래에 상세히 설명될 것이다. 도 3에 도시된 바와 같이, 프로세스는 동작들 302-306을 포함한다.
동작 302에서, 대상 물체의 필터링 정보가 제2 미리 결정된 임계값보다 큰지가 검출된다.
제2 미리 결정된 임계값은 제1 미리 결정된 임계값보다 크고, 제2 미리 결정된 임계값은 대상 물체의 필터링 정보 및 시야를 방해하지 않거나 벗어나지 않는 대상 물체의 상태에 따른 통계를 통해 결정될 수 있다.
대상 물체의 필터링 정보가 제2 미리 결정된 임계값보다 큰 경우, 동작 304를 수행하고; 및/또는, 대상 물체의 필터링 정보가 제2 미리 결정된 임계값 이하인 경우, 동작 306을 수행한다.
동작 304에서, 현재 프레임 이미지 내의 검색 영역이 획득된다.
선택적으로, 동작 304 후에, 현재 프레임 이미지 내의 대상 물체가 현재 프레임 이미지 내의 검색 영역 내에서 결정된다.
동작 306에서, 비디오의 현재 프레임 이미지에 인접한 다음 프레임 이미지가 현재 프레임 이미지로서 사용되고, 확장된 검색 영역이 현재 프레임 이미지 내의 검색 영역으로서 획득된다.
비디오의 현재 프레임 이미지에 인접한 다음 프레임 이미지를 현재 프레임 이미지로서 취하고 확장된 검색 영역을 현재 프레임 이미지 내의 검색 영역으로서 획득한 후에, 현재 프레임 이미지 내의 대상 물체는 확장된 검색 영역 내에서 추가로 결정될 수 있다.
선택적인 예에서, 동작들 302-306은 메모리에 저장된 대응하는 명령어들을 호출하는 프로세서에 의해 실행될 수 있거나, 또는 프로세서에 의해 동작되는 검색 유닛에 의해 실행될 수 있다.
이 실시예에서, 현재 프레임 이미지 내의 대상 물체의 필터링 정보에 따라 검색 영역이 확장된 후에 다음 프레임 이미지에 대해 물체 추적을 수행할 때, 다음 프레임 이미지가 현재 프레임 이미지로서 취해지고, 그 후 현재 프레임 이미지 내의 대상 물체의 필터링 정보가 제2 미리 결정된 임계값과 비교되고, 현재 프레임 이미지 내의 대상 물체의 필터링 정보가 제2 미리 결정된 임계값보다 클 때, 현재 프레임 이미지 내의 검색 영역이 획득되고, 현재 프레임 이미지 내의 대상 물체가 검색 영역 내에서 결정된다. 물체 추적을 위한 현재 프레임 이미지 내의 대상 물체가 차단되지 않고 현재 프레임 이미지 내의 대상 물체가 시야를 벗어나지 않을 때, 원래의 물체 추적 방법이 복원될 수 있는데, 즉, 미리 결정된 검색 알고리즘을 사용하여 물체 추적을 위한 현재 프레임 이미지 내의 검색 영역을 획득함으로써, 데이터 처리량을 감소시키고 계산 속도를 증가시킨다.
도 4d 및 도 4e는 본 개시내용의 일부 실시예들에 따른 물체 추적 방법의 다른 응용 예의 개략도이다. 도 4d 및 도 4e에 도시된 바와 같이, 도 4d는 물체 추적을 위한 비디오의 4개의 프레임 이미지를 나타낸다. 도 4d에서, 4개의 프레임 이미지의 시퀀스 번호는 각각 692, 697, 722, 및 727이다. 박스 a는 현재 프레임 이미지 내의 검색 영역을 결정하기 위한 검색 박스를 표시하고, 박스 b는 대상 물체의 진정한 윤곽을 나타내고, 박스 c는 대상 추적을 위한 경계 박스를 표시한다. 도 4d로부터, 697 및 722로 나타낸 2-프레임 이미지 내의 대상 물체는 시야 내에 있지 않고, 따라서 검색 영역이 확장된다는 것을 알 수 있다. 이러한 방식으로, 697 및 722로 나타낸 2-프레임 이미지 내의 대상 물체는 시야 내에 다시 들어가고, 따라서 검색 영역은 정상 검색 영역으로 복원된다. 도 4e는 도 4d의 대상 물체의 스코어들의 변화 및 대상 물체와 경계 박스의 중첩의 변화를 예시하는 개략도이다. 라인 d는 대상 물체의 스코어들의 변화를 나타낸다. 라인 e는 대상 물체와 경계 박스 사이의 중첩을 나타낸다. 도 4e로부터, 697에서 대상 물체의 스코어가 빠르게 감소된다는 것을 알 수 있다. 한편, 697에서, 대상 물체와 경계 박스 사이의 중첩이 빠르게 감소된다. 722에서, 대상 물체의 스코어는 더 큰 값으로 복구된다. 722에서, 대상 물체와 경계 박스 사이의 중첩도 빠르게 증가된다. 따라서, 대상 물체가 시야 범위 내에 있지 않거나 차단되지 않을 때 물체 추적에 존재하는 문제는 대상 물체의 스코어를 결정함으로써 개선될 수 있다.
일부 실시예들에서, 동작 108에서 필터링 정보가 미리 결정된 조건을 충족하는 적어도 하나의 후보 물체 중 하나를 현재 프레임 이미지 내의 대상 물체로서 결정한 후에, 현재 프레임 이미지 내의 대상 물체의 카테고리가 추가로 식별될 수 있고, 이는 물체 추적의 기능을 향상시키고 물체 추적의 응용 시나리오들을 증가시킬 수 있다.
일부 실시예들에서, 전술한 실시예들의 물체 추적 방법은 신경망에 의해 실행될 수 있다.
선택적으로, 물체 추적 방법을 실행하기 전에, 신경망은 샘플 이미지들에 따라 훈련될 수 있다. 신경망을 훈련시키는데 사용되는 샘플 이미지들은 양의 샘플들 및 음의 샘플들을 포함할 수 있고, 여기서 양의 샘플들은: 미리 결정된 훈련 데이터 세트 내의 양의 샘플 이미지들 및 미리 결정된 테스트 데이터 세트 내의 양의 샘플 이미지들을 포함한다. 예를 들어, 미리 결정된 훈련 데이터 세트는 유튜브(Youtube) BB 및 VID 상의 비디오 시퀀스를 사용할 수 있고, 미리 결정된 테스트 데이터 세트는 ImageNet 및 COCO로부터의 검출 데이터를 사용할 수 있다. 이 실시예에서, 테스트 데이터 세트 내의 양의 샘플 이미지들을 사용하여 신경망을 훈련시킴으로써, 양의 샘플들의 타입들이 증가될 수 있고, 그에 의해 신경망의 일반화 성능을 보장하고 물체 추적의 판별 능력을 향상시킨다.
선택적으로, 미리 결정된 훈련 데이터 세트 내의 양의 샘플 이미지들 및 미리 결정된 테스트 데이터 세트 내의 양의 샘플 이미지들을 포함하는 것 이외에, 양의 샘플들은: 미리 결정된 테스트 데이터 세트 내의 양의 샘플 이미지들에 대해 데이터 강화 처리를 수행함으로써 획득된 양의 샘플 이미지들을 추가로 포함할 수 있다. 예를 들어, 변환, 스케일 변경, 및 광 변경과 같은 종래의 데이터 강화 처리 이외에, 특정 모션 모드에 대한, 모션 블러와 같은 데이터 강화 처리가 채택될 수 있다. 데이터 강화 처리 방식은 이 실시예에서 제한되지 않는다. 이 실시예에서, 신경망은 테스트 데이터 세트 내의 양의 샘플 이미지들에 대해 데이터 강화 처리를 수행함으로써 획득된 양의 샘플 이미지들로 훈련되고, 이는 양의 샘플 이미지들의 다양성을 증가시키고, 신경망의 견고성을 향상시키고, 오버피팅(overfitting)을 피할 수 있다.
선택적으로, 음의 샘플들은: 대상 물체와 동일한 카테고리를 갖는 물체의 음의 샘플 이미지 및/또는 대상 물체와 상이한 카테고리를 갖는 물체의 음의 샘플 이미지를 포함할 수 있다. 예를 들어, 미리 결정된 테스트 데이터 세트 내의 양의 샘플 이미지들로부터 획득된 음의 샘플 이미지는 미리 결정된 테스트 데이터 세트로부터의 양의 샘플 이미지 내의 대상 물체 주위의 배경 이미지일 수 있다. 이 경우, 이러한 두 가지 타입의 음의 샘플 이미지는 일반적으로 시맨틱스를 갖지 않는다. 대상 물체와 동일한 카테고리를 갖는 물체의 음의 샘플 이미지는 다른 비디오들 또는 이미지들로부터 랜덤하게 추출된 프레임 이미지일 수 있고, 프레임 이미지 내의 물체는 양의 샘플 이미지 내의 대상 물체와 동일한 카테고리를 갖는다. 대상 물체와 상이한 카테고리를 갖는 물체의 음의 샘플 이미지는 다른 비디오들 또는 이미지들로부터 랜덤하게 추출된 프레임 이미지일 수 있고, 프레임 이미지 내의 물체는 양의 샘플 이미지 내의 대상 물체와 상이한 카테고리를 갖는다. 이 경우, 이러한 두 가지 타입의 음의 샘플 이미지들은 일반적으로 시맨틱스를 갖는다. 이 실시예에서, 신경망은 대상 물체와 동일한 카테고리를 갖는 물체의 음의 샘플 이미지 및/또는 대상 물체와 상이한 카테고리를 갖는 물체의 음의 샘플 이미지들을 사용함으로써 훈련되고, 이는 양의 샘플 이미지 및 음의 샘플 이미지의 균형잡힌 분포를 보장하고 신경망의 성능을 향상시킴으로써, 물체 추적의 구별 능력을 향상시킬 수 있다.
본 개시내용의 실시예들에서 제공되는 임의의 물체 추적 방법은 단말 디바이스들 및 서버들을 포함하지만 이에 한정되지 않는 데이터 프로세싱 능력들을 갖는 임의의 적절한 디바이스에 의해 실행될 수 있다. 대안적으로, 본 개시내용의 실시예들에서 제공되는 임의의 물체 추적 방법은 프로세서에 의해 실행될 수도 있고, 예를 들어, 프로세서는 메모리에 저장된 대응하는 명령어들을 호출함으로써 본 개시내용의 실시예들에서 언급된 임의의 물체 추적 방법을 실행한다. 세부사항들은 이하에서 설명되지 않는다.
본 기술분야의 통상의 기술자는 상기 방법 실시예들에서의 단계들의 전부 또는 일부가 프로그램 명령어들과 연관된 하드웨어에 의해 구현될 수 있다는 것을 이해할 수 있다. 전술한 프로그램은 컴퓨터 판독가능 저장 매체에 저장될 수 있고, 프로그램이 실행될 때, 전술한 방법 실시예의 단계들이 수행된다. 전술한 저장 매체는: ROM(Read Only Memory), RAM(Random Access Memory), 자기 디스크, 또는 광 디스크와 같은, 프로그램 코드들을 저장할 수 있는 다양한 매체를 포함한다.
도 5는 본 개시내용의 일부 실시예들에 따른 물체 추적 장치의 흐름도이다. 도 5에 도시된 바와 같이, 장치는: 검출 유닛(510), 획득 유닛(520), 조정 유닛(530), 및 결정 유닛(540)을 포함한다.
검출 유닛(510)은 비디오의 기준 프레임 이미지 내의 대상 물체에 따라 비디오의 현재 프레임 이미지 내의 적어도 하나의 후보 물체를 검출하도록 구성된다.
이 실시예에서, 물체 추적을 위한 비디오는 비디오 캡처 디바이스로부터 획득된 비디오일 수 있다. 예를 들어, 비디오 캡처 디바이스는 비디오 카메라, 픽업 헤드 등을 포함할 수 있다. 물체 추적을 위한 비디오는 저장 디바이스로부터 획득된 비디오일 수도 있다. 예를 들어, 저장 디바이스는 광 디스크, 하드 디스크, U 디스크 등을 포함할 수 있다. 물체 추적을 위한 비디오는 네트워크 서버로부터 획득된 비디오일 수도 있다. 처리될 비디오를 획득하는 방식은 이 실시예에서 한정되지 않는다. 기준 프레임 이미지는 비디오의 제1 프레임 이미지일 수 있다. 기준 프레임 이미지는 비디오에 대해 물체 추적 처리를 수행하기 위한 제1 프레임 이미지일 수도 있다. 기준 프레임 이미지는 비디오의 중간 프레임 이미지일 수도 있다. 기준 프레임 이미지의 선택은 이 실시예에서 한정되지 않는다. 현재 프레임 이미지는 비디오의 기준 프레임 이미지 이외의 프레임 이미지일 수 있고, 기준 프레임 이미지 전 또는 후일 수 있으며, 이는 이 실시예에서 한정되지 않는다. 선택적인 예에서, 비디오의 현재 프레임 이미지는 기준 프레임 이미지 이후이다.
선택적으로, 검출 유닛(510)은 기준 프레임 이미지 내의 대상 물체의 이미지와 현재 프레임 이미지 사이의 상관 관계를 결정할 수 있고, 상관 관계에 따라 현재 프레임 이미지 내의 적어도 하나의 후보 물체의 경계 박스들 및 필터링 정보를 획득한다. 선택적인 예에서, 검출 유닛(510)은 기준 프레임 이미지 내의 대상 물체의 이미지의 제1 특징 및 현재 프레임 이미지의 제2 특징에 따라 기준 프레임 이미지 내의 대상 물체의 이미지와 현재 프레임 이미지 사이의 상관 관계를 결정할 수 있다. 예를 들어, 상관 관계는 콘볼루션 처리에 의해 획득된다. 이 실시예는 기준 프레임 이미지 내의 대상 물체의 이미지와 현재 프레임 이미지 사이의 상관 관계를 결정하는 방식을 제한하지 않는다. 후보 물체의 경계 박스는 예를 들어, NMS(non-maximum suppression)에 의해 획득될 수 있다. 후보 물체의 필터링 정보는 후보 물체 자체의 특성에 관련된 정보이고, 후보 물체는 그 정보에 따라 다른 후보 물체들과 구별될 수 있다. 예를 들어, 후보 정보의 필터링 정보는 후보 물체의 경계 박스의 스코어, 후보 물체를 선택할 확률 등과 같은 정보일 수 있다. 경계 박스의 스코어 및 선택 확률은 상관 관계에 따라 획득된 후보 물체의 상관 계수일 수 있다. 이 실시예는 상관 관계에 기초하여 후보 물체의 경계 박스 및 필터링 정보를 획득하는 방식을 제한하지 않는다.
획득 유닛(520)은 비디오의 적어도 하나의 이전 프레임 이미지 내의 간섭 물체를 획득하도록 구성된다.
이 실시예에서, 적어도 하나의 이전 프레임 이미지는: 기준 프레임 이미지, 및/또는 기준 프레임 이미지와 현재 프레임 이미지 사이에 위치되는 적어도 하나의 중간 프레임 이미지를 포함할 수 있다.
선택적으로, 획득 유닛(520)은 미리 결정된 간섭 물체 세트에 따라 비디오의 적어도 하나의 이전 프레임 이미지 내의 간섭 물체를 획득할 수 있다. 간섭 물체 세트를 미리 결정함으로써, 비디오의 각각의 프레임 이미지에 대해 물체 추적 처리를 수행할 때, 대상 물체로서 결정되지 않은 적어도 하나의 후보 물체 중 하나 이상이 현재 프레임 이미지 내의 간섭 물체들로서 결정되고, 간섭 물체 세트에 들어간다. 선택적인 예에서, 대상 물체로서 결정되지 않고 필터링 정보가 미리 결정된 간섭 물체 조건을 충족하는 적어도 하나의 후보 물체 중 하나 이상이 간섭 물체들로서 결정되고 간섭 물체 세트에 들어갈 수 있다. 예를 들어, 필터링 정보는 경계 박스의 스코어이고, 미리 결정된 간섭 물체 조건은 경계 박스의 스코어가 미리 결정된 임계값보다 큰 것일 수 있다.
선택적인 예에서, 획득 유닛(520)은 비디오의 모든 이전 프레임 이미지들 내의 간섭 물체들을 획득할 수 있다.
조정 유닛(530)은 획득된 간섭 물체에 따라 적어도 하나의 후보 물체의 필터링 정보를 조정하도록 구성된다.
선택적으로, 적어도 하나의 후보 물체 각각에 대해, 조정 유닛(530)은 후보 물체와 획득된 간섭 물체 사이의 제1 유사도를 결정하고, 제1 유사도에 따라 후보 물체의 필터링 정보를 조정할 수 있다. 선택적인 예에서, 조정 유닛(530)은 후보 물체의 특징 및 획득된 간섭 물체의 특징에 기초하여 후보 물체와 획득된 간섭 물체 사이의 제1 유사도를 결정할 수 있다. 선택적인 예에서, 필터링 정보는 경계 박스의 스코어이다. 후보 물체와 획득된 간섭 물체 사이의 제1 유사도가 비교적 높을 때, 후보 물체의 경계 박스의 스코어는 감소될 수 있고, 후보 물체와 획득된 간섭 물체 사이의 제1 유사도가 비교적 낮을 때, 후보 물체의 경계 박스의 스코어는 증가될 수 있거나 또는 스코어는 변경되지 않은 채로 유지될 수 있다.
선택적으로, 획득된 간섭 물체들의 수가 하나 초과일 때, 후보 물체와 모든 획득된 간섭 물체 사이의 유사도들의 가중 평균이 계산될 수 있고, 가중 평균은 후보 물체의 필터링 정보를 조정하는데 사용된다. 가중 평균에서 각각의 간섭 물체의 가중치는 간섭 물체가 대상 물체 선택을 간섭하는 간섭 정도와 관련된다. 예를 들어, 간섭 물체가 대상 물체 선택을 간섭하는 간섭 정도가 클수록, 간섭 물체의 가중치는 더 커진다. 선택적인 예에서, 필터링 정보는 경계 박스의 스코어이고, 후보 물체와 획득된 간섭 물체 사이의 상관 계수는 후보 물체와 획득된 간섭 물체 사이의 제1 유사도를 나타내는데 사용될 수 있다. 기준 프레임 이미지 내의 대상 물체와 후보 물체 사이의 상관 계수와 후보 물체와 획득된 간섭 물체들 사이의 제1 유사도들의 가중 평균 사이의 차이는 후보 물체의 경계 박스의 스코어를 조정하는데 사용된다.
결정 유닛(540)은 필터링 정보가 미리 결정된 조건을 충족하는 적어도 하나의 후보 물체 중 하나를 현재 프레임 이미지 내의 대상 물체로서 결정하도록 구성된다.
선택적으로, 결정 유닛(540)은 필터링 정보가 미리 결정된 조건을 충족하는 후보 물체의 경계 박스를 현재 프레임 이미지 내의 대상 물체의 경계 박스인 것으로 결정할 수 있다. 선택적인 예에서, 필터링 정보는 경계 박스의 스코어이다. 후보 물체들은 후보 물체들의 경계 박스들의 스코어들에 따라 순위화될 수 있다. 최고 스코어를 갖는 후보 물체의 경계 박스는 현재 프레임 이미지 내의 대상 물체의 경계 박스로서 사용되어 현재 프레임 이미지 내의 대상 물체를 결정한다.
선택적으로, 후보 물체들의 경계 박스들의 위치들 및 형상들은 비디오의 현재 프레임 이미지에 인접한 이전 프레임 이미지 내의 대상 물체의 경계 박스의 위치 및 형상과 비교될 수 있고, 현재 프레임 이미지 내의 후보 물체들의 경계 박스들의 스코어들은 비교 결과에 따라 조정되고, 현재 프레임 이미지 내의 후보 물체들의 경계 박스들의 조정된 스코어들은 재순위화되고, 재순위화한 후에 최고 스코어를 갖는 후보 물체의 경계 박스는 현재 프레임 이미지 내의 대상 물체의 경계 박스로서 결정된다. 예를 들어, 이전 프레임 이미지와 비교하여, 위치 시프트가 비교적 크고 형상 변화가 비교적 큰 후보 물체의 경계 박스의 스코어가 감소된다.
선택적으로, 장치는: 디스플레이 유닛을 추가로 포함할 수 있다. 필터링 정보가 미리 결정된 조건을 충족하는 후보 물체의 경계 박스를 현재 프레임 이미지 내의 대상 물체의 경계 박스로서 결정한 후에, 디스플레이 유닛은 현재 프레임 이미지 내의 대상 물체의 위치를 마킹하기 위해 현재 프레임 이미지 내의 대상 물체의 경계 박스를 표시할 수 있다.
이 실시예에서 제공되는 물체 추적 장치에 기초하여, 비디오의 기준 프레임 이미지 내의 대상 물체에 따라, 비디오의 현재 프레임 이미지 내의 적어도 하나의 후보 물체가 검출되고; 비디오의 적어도 하나의 이전 프레임 이미지 내의 간섭 물체가 획득되고; 획득된 간섭 물체에 따라 적어도 하나의 후보 물체의 필터링 정보가 조정되고; 필터링 정보가 미리 결정된 조건을 충족하는 적어도 하나의 후보 물체 중 하나가 현재 프레임 이미지 내의 대상 물체로서 결정된다. 물체 추적 동안, 현재 프레임 이미지 이전의 이전 프레임 이미지 내의 간섭 물체를 사용하여, 후보 물체들의 필터링 정보가 조정된다. 후보 물체들의 필터링 정보가 현재 프레임 이미지 내의 대상 물체를 결정하는데 사용될 때, 후보 물체들 내의 간섭 물체가 효과적으로 억제될 수 있고, 후보 물체들로부터 대상 물체가 획득된다. 현재 프레임 이미지 내의 대상 물체를 결정하는 프로세스에서, 결정 결과에 대한 대상 물체 주위의 간섭 물체들의 영향이 효과적으로 억제될 수 있고, 따라서 물체 추적의 식별 능력이 향상될 수 있다.
일부 실시예들에서, 획득 유닛(520)은 비디오의 기준 프레임 이미지와 현재 프레임 이미지 사이의 적어도 하나의 중간 프레임 이미지 내의 대상 물체를 추가로 획득할 수 있다. 장치는 적어도 하나의 중간 프레임 이미지 내의 대상 물체에 따라 적어도 하나의 후보 물체의 필터링 정보를 최적화하는 최적화 유닛을 추가로 포함할 수 있다. 선택적인 예에서, 적어도 하나의 후보 물체 각각에 대해, 최적화 유닛은 적어도 하나의 중간 프레임 이미지 내의 대상 물체와 후보 물체 사이의 제2 유사도를 결정하고, 그 후 제2 유사도에 따라 후보 물체의 필터링 정보를 최적화할 수 있다. 예를 들어, 최적화 유닛은 적어도 하나의 중간 프레임 이미지 내의 후보 물체의 특징 및 대상 물체의 특징에 기초하여 적어도 하나의 중간 프레임 이미지 내의 대상 물체와 후보 물체 사이의 제2 유사도를 결정할 수 있다.
선택적으로, 획득 유닛(520)은 대상 물체가 결정된 적어도 하나의 중간 프레임 이미지로부터 그리고 비디오의 기준 프레임 이미지와 현재 프레임 이미지 사이에서 대상 물체를 취득할 수 있다. 선택적인 예에서, 획득 유닛(520)은 대상 물체가 결정된 모든 중간 프레임 이미지 내의 그리고 비디오의 기준 프레임 이미지와 현재 프레임 이미지 사이의 대상 대상을 획득할 수 있다.
선택적으로, 획득된 대상 물체들의 수가 하나 초과일 때, 후보 물체와 모든 획득된 대상 물체 사이의 유사도들의 가중 평균이 계산될 수 있고, 가중 평균은 후보 물체의 필터링 정보를 최적화하는데 사용된다. 가중 평균에서의 각각의 대상 물체의 가중치는 대상 물체가 현재 프레임 이미지 내의 대상 물체 선택에 영향을 미치는 영향의 정도에 관련된다. 예를 들어, 현재 프레임 이미지에 더 가까운 프레임 이미지 내의 대상 물체의 가중치도 더 크다. 선택적인 예에서, 필터링 정보는 경계 박스의 스코어이고, 후보 물체와 획득된 간섭 물체 사이의 상관 계수는 후보 물체와 획득된 간섭 물체 사이의 제1 유사도를 나타내는데 사용될 수 있다. 후보 물체의 경계 박스의 스코어는 기준 프레임 이미지 내의 대상 물체와 후보 물체 사이의 상관 계수, 및 후보 물체와 획득된 대상 물체들 사이의 제2 유사도들의 가중 평균과 후보 물체와 획득된 간섭 물체들 사이의 제1 유사도들의 가중 평균 사이의 차이를 통해 조정될 수 있다.
이 실시예에서, 비디오의 기준 프레임 이미지와 현재 프레임 이미지 사이의 중간 프레임 이미지 내의 획득된 대상 물체를 후보 물체들의 필터링 정보를 최적화하는데 사용하여, 현재 프레임 이미지 내의 후보 물체들의 획득된 필터링 정보가 후보 물체들의 속성들을 보다 현실적으로 반영할 수 있게 한다. 이러한 방식으로, 처리될 비디오의 현재 프레임 이미지 내의 대상 물체의 위치를 결정할 때 보다 정확한 결정 결과가 획득될 수 있다.
도 6은 본 개시내용의 다른 실시예들에 따른 물체 추적 장치의 흐름도이다. 도 6에 도시된 바와 같이, 도 5에 도시된 실시예와 비교하여, 검출 유닛(610), 획득 유닛(620), 조정 유닛(630), 및 결정 유닛(640) 이외에, 장치는 현재 프레임 이미지 내의 검색 영역을 획득하기 위한 검색 유닛(650)을 추가로 포함한다. 검출 유닛(610)은 비디오의 기준 프레임 이미지 내의 대상 물체에 따라 그리고 현재 프레임 이미지 내의 검색 영역 내에서 비디오의 현재 프레임 이미지 내의 적어도 하나의 후보 물체를 검출하도록 구성된다. 현재 프레임 이미지 내의 검색 영역을 획득하는 동작에 대해, 대상 물체가 현재 프레임 이미지에 나타날 수 있는 영역이 미리 결정된 검색 알고리즘으로 추정되고 가정될 수 있다.
선택적으로, 검색 유닛(650)은 현재 프레임 이미지 내의 대상 물체의 필터링 정보에 따라 검색 영역을 결정하도록 추가로 구성된다.
일부 실시예들에서, 검색 유닛(650)은 대상 물체의 필터링 정보가 제1 미리 결정된 임계값보다 작은지를 검출하도록 구성되고; 대상 물체의 필터링 정보가 제1 미리 결정된 임계값보다 작은 경우, 확장된 검색 영역이 현재 프레임 이미지를 커버할 때까지 미리 결정된 스텝 길이에 따라 검색 영역을 점진적으로 확장하고; 및/또는, 대상 물체의 필터링 정보가 제1 미리 결정된 임계값 이상인 경우, 비디오의 현재 프레임 이미지에 인접한 다음 프레임 이미지를 현재 프레임 이미지로서 사용하고 현재 프레임 이미지 내의 검색 영역을 획득한다.
이 실시예에서, 현재 프레임 이미지 내의 대상 물체의 필터링 정보는 제1 미리 결정된 임계값과 비교된다. 현재 프레임 이미지 내의 대상 물체의 필터링 정보가 제1 미리 결정된 임계값보다 작을 때, 검색 영역은 확장된 검색 영역이 현재 프레임 이미지를 커버할 때까지 확장된다. 물체 추적을 위한 현재 프레임 이미지 내의 대상 물체가 차단되거나 물체 추적을 위한 현재 프레임 이미지 내의 대상 물체가 시야를 벗어날 때, 현재 프레임 이미지 내의 확장된 검색 영역은 전체 현재 프레임 이미지를 커버하는데 사용될 수 있고, 다음 프레임 이미지에서 물체 추적을 수행할 때, 확장된 검색 영역은 전체 다음 프레임 이미지를 커버하는데 사용된다. 대상 물체가 다음 프레임 이미지에 나타날 때, 확장된 검색 영역이 전체 다음 프레임 이미지를 커버하기 때문에, 대상 물체가 검색 영역 외부에 나타나므로 대상 물체가 추적될 수 없는 상황이 발생하지 않고, 따라서 대상 물체의 장기간 추적이 실현될 수 있다.
일부 실시예들에서, 검색 유닛(650)은 확장된 검색 영역에서 현재 프레임 이미지 내의 대상 물체를 결정한 후에 대상 물체의 필터링 정보가 제2 미리 결정된 임계값보다 큰지를 검출하도록 추가로 구성되고, 제2 미리 결정된 임계값은 제1 미리 결정된 임계값보다 크고; 대상 물체의 필터링 정보가 제2 미리 결정된 임계값보다 큰 경우, 현재 프레임 이미지 내의 검색 영역을 획득하고; 및/또는, 대상 물체의 필터링 정보가 제2 미리 결정된 임계값 이하인 경우, 비디오의 현재 프레임 이미지에 인접한 다음 프레임 이미지를 현재 프레임 이미지로서 사용하고, 확장된 검색 영역을 현재 프레임 이미지 내의 검색 영역으로서 획득한다.
이 실시예에서, 현재 프레임 이미지 내의 대상 물체의 필터링 정보에 따라 검색 영역이 확장된 후에 다음 프레임 이미지에 대해 물체 추적을 수행할 때, 다음 프레임 이미지가 현재 프레임 이미지로서 취해지고, 그 후 현재 프레임 이미지 내의 대상 물체의 필터링 정보가 제2 미리 결정된 임계값과 비교되고, 현재 프레임 이미지 내의 대상 물체의 필터링 정보가 제2 미리 결정된 임계값보다 클 때, 현재 프레임 이미지 내의 검색 영역이 획득되고, 현재 프레임 이미지 내의 대상 물체가 검색 영역 내에서 결정된다. 물체 추적을 위한 현재 프레임 이미지 내의 대상 물체가 차단되지 않고 현재 프레임 이미지 내의 대상 물체가 시야를 벗어나지 않을 때, 원래의 물체 추적 방법이 복원될 수 있는데, 즉, 미리 결정된 검색 알고리즘을 사용하여 물체 추적을 위한 현재 프레임 이미지 내의 검색 영역을 획득함으로써, 데이터 처리량을 감소시키고 계산 속도를 증가시킨다.
일부 실시예들에서, 물체 추적 장치는 식별 유닛을 추가로 포함한다. 필터링 정보가 미리 결정된 조건을 충족하는 후보 물체가 현재 프레임 이미지 내의 대상 물체라고 결정한 후에, 식별 유닛은 현재 프레임 이미지 내의 대상 물체의 카테고리를 추가로 식별할 수 있고, 이는 물체 추적의 기능을 향상시키고 물체 추적의 응용 시나리오들을 증가시킬 수 있다.
일부 실시예들에서, 물체 추적 장치는 신경망을 포함하고, 신경망을 통해 물체 추적 방법을 수행한다.
선택적으로, 물체 추적 방법을 실행하기 전에, 신경망은 샘플 이미지들에 따라 훈련될 수 있다. 신경망을 훈련시키는데 사용되는 샘플 이미지들은 양의 샘플들 및 음의 샘플들을 포함할 수 있고, 여기서 양의 샘플들은: 미리 결정된 훈련 데이터 세트 내의 양의 샘플 이미지들 및 미리 결정된 테스트 데이터 세트 내의 양의 샘플 이미지들을 포함한다. 예를 들어, 미리 결정된 훈련 데이터 세트는 유튜브(Youtube) BB 및 VID 상의 비디오 시퀀스를 사용할 수 있고, 미리 결정된 테스트 데이터 세트는 ImageNet 및 COCO로부터의 검출 데이터를 사용할 수 있다. 이 실시예에서, 테스트 데이터 세트 내의 양의 샘플 이미지들을 사용하여 신경망을 훈련시킴으로써, 양의 샘플들의 타입들이 증가될 수 있고, 그에 의해 신경망의 일반화 성능을 보장하고 물체 추적의 판별 능력을 향상시킨다.
선택적으로, 미리 결정된 훈련 데이터 세트 내의 양의 샘플 이미지들 및 미리 결정된 테스트 데이터 세트 내의 양의 샘플 이미지들을 포함하는 것 이외에, 양의 샘플들은: 미리 결정된 테스트 데이터 세트 내의 양의 샘플 이미지들에 대해 데이터 강화 처리를 수행함으로써 획득된 양의 샘플 이미지들을 추가로 포함할 수 있다. 예를 들어, 변환, 스케일 변경, 및 광 변경과 같은 종래의 데이터 강화 처리 이외에, 특정 모션 모드에 대한, 모션 블러와 같은 데이터 강화 처리가 채택될 수 있다. 데이터 강화 처리 방식은 이 실시예에서 제한되지 않는다. 이 실시예에서, 신경망은 테스트 데이터 세트 내의 양의 샘플 이미지들에 대해 데이터 강화 처리를 수행함으로써 획득된 양의 샘플 이미지들로 훈련되고, 이는 양의 샘플 이미지들의 다양성을 증가시키고, 신경망의 견고성을 향상시키고, 오버피팅(overfitting)을 피할 수 있다.
선택적으로, 음의 샘플들은: 대상 물체와 동일한 카테고리를 갖는 물체의 음의 샘플 이미지 및/또는 대상 물체와 상이한 카테고리를 갖는 물체의 음의 샘플 이미지를 포함할 수 있다. 예를 들어, 미리 결정된 테스트 데이터 세트 내의 양의 샘플 이미지들로부터 획득된 음의 샘플 이미지는 미리 결정된 테스트 데이터 세트로부터의 양의 샘플 이미지 내의 대상 물체 주위의 배경 이미지일 수 있다. 이 경우, 이러한 두 가지 타입의 음의 샘플 이미지는 일반적으로 시맨틱스를 갖지 않는다. 대상 물체와 동일한 카테고리를 갖는 물체의 음의 샘플 이미지는 다른 비디오들 또는 이미지들로부터 랜덤하게 추출된 프레임 이미지일 수 있고, 프레임 이미지 내의 물체는 양의 샘플 이미지 내의 대상 물체와 동일한 카테고리를 갖는다. 대상 물체와 상이한 카테고리를 갖는 물체의 음의 샘플 이미지는 다른 비디오들 또는 이미지들로부터 랜덤하게 추출된 프레임 이미지일 수 있고, 프레임 이미지 내의 물체는 양의 샘플 이미지 내의 대상 물체와 상이한 카테고리를 갖는다. 이 경우, 이러한 두 가지 타입의 음의 샘플 이미지들은 일반적으로 시맨틱스를 갖는다. 이 실시예에서, 신경망은 대상 물체와 동일한 카테고리를 갖는 물체의 음의 샘플 이미지 및/또는 대상 물체와 상이한 카테고리를 갖는 물체의 음의 샘플 이미지들을 사용함으로써 훈련되고, 이는 양의 샘플 이미지 및 음의 샘플 이미지의 균형잡힌 분포를 보장하고 신경망의 성능을 향상시킴으로써, 물체 추적의 구별 능력을 향상시킬 수 있다.
선택적인 예에서, 다른 방법들에 의해 획득되는 훈련 데이터의 "주석 데이터"가 상대적으로 희박하기 때문에, 즉, 깊이 맵에서의 유효 픽셀 값이 상대적으로 더 작기 때문에, 양안 이미지 스테레오 매칭에 의해 획득되는 깊이 맵은 훈련 데이터의 "주석 데이터"로서 사용된다.
또한, 본 개시내용의 실시예들은 모바일 단말기, 개인용 컴퓨터(PC), 태블릿 컴퓨터, 서버 등과 같은 전자 디바이스를 추가로 제공한다. 아래의 도 7을 참조하면, 본 개시내용의 실시예들에 따른 단말 디바이스 또는 서버를 구현하기에 적합한 전자 디바이스(700)의 개략 구조도가 도시되어 있다. 도 7에 도시된 바와 같이, 전자 디바이스(700)는 하나 이상의 프로세서, 통신부 등을 포함한다. 하나 이상의 프로세서는 예를 들어, 하나 이상의 중앙 처리 장치(CPU)(701), 및/또는 하나 이상의 이미지 프로세서(GPU)(713) 등을 포함할 수 있다. 프로세서는 ROM(read-only memory)(702)에 저장된 실행가능 명령어들 또는 저장 컴포넌트(708)로부터 RAM(random access memory)(703)에 로딩된 실행가능 명령어들에 따라 다양한 적절한 액션들 및 프로세스들을 수행할 수 있다. 통신부(712)는 네트워크 카드를 포함할 수 있지만, 이에 한정되지 않고, 네트워크 카드는 IB(Infiniband) 네트워크 카드를 포함할 수 있지만, 이에 한정되지 않는다. 프로세서는 실행가능 명령어들을 실행하기 위해 ROM(702) 및/또는 RAM(703)과 통신할 수 있다. 프로세서는 버스(704)를 통해 통신부(712)와 결합되고 통신부(712)를 통해 다른 대상 디바이스들과 통신한다. 따라서, 본 개시내용의 실시예들에 의해 제공되는 임의의 방법에 대응하는 동작들이 완료된다. 예를 들어, 동작들은 비디오의 기준 프레임 이미지 내의 대상 물체에 따라, 비디오의 현재 프레임 이미지 내의 적어도 하나의 후보 물체를 검출하는 것; 비디오의 적어도 하나의 이전 프레임 이미지 내의 간섭 물체를 획득하는 것; 획득된 간섭 물체에 따라 적어도 하나의 후보 물체의 필터링 정보를 조정하는 단계; 및 필터링 정보가 미리 결정된 조건을 충족하는 적어도 하나의 후보 물체 중 하나를 현재 프레임 이미지 내의 대상 물체로서 결정하는 것을 포함한다.
또한, RAM(703)은 장치 동작에 필요한 다양한 프로그램들 및 데이터를 추가로 저장할 수 있다. CPU(701), ROM(702), 및 RAM(703)은 버스(704)를 통해 서로 결합된다. RAM(703)이 존재하는 경우에, ROM(702)은 선택적 모듈이다. RAM(703)은 실행가능 명령어들을 저장하거나, 또는 실행가능 명령어들을, 실행할 때 ROM(702)에 기입하기 위한 것이고, 실행가능 명령어들은 CPU(701)로 하여금 상기 물체 추적 방법들에 대응하는 동작들을 실행하게 한다. 입출력(I/O) 인터페이스(705)는 또한 버스(704)에 결합된다. 통신부(712)는 일체로 배열될 수 있거나, 또는 복수의 서브 모듈(예를 들어, 복수의 IB 네트워크 카드)을 갖고 버스에 링크되도록 배열될 수 있다.
I/O 인터페이스(705)에는 다음의 컴포넌트들: 키보드, 마우스 등을 포함하는 입력 컴포넌트(706); 예를 들어, 음극선관(CRT), 액정 디스플레이(LCD), 스피커 등을 포함하는 출력 컴포넌트(707); 하드 디스크 등을 포함하는 저장 컴포넌트(708); 및 LAN(local area network) 카드, 모뎀 등과 같은 네트워크 인터페이스 카드를 포함하는 통신 컴포넌트(709)가 접속된다. 통신 컴포넌트(709)는 인터넷 등의 네트워크를 통해 통신 처리를 수행한다. 드라이버(710)는 또한 필요에 따라 I/O 인터페이스(705)에 접속된다. 자기 디스크, 광 디스크, 광자기 디스크, 반도체 메모리 등과 같은 이동식 매체(711)가 필요에 따라 드라이버(710) 상에 장착되어, 이동식 매체(711)로부터 판독된 컴퓨터 프로그램이 필요에 따라 저장 컴포넌트(708)에 장착된다.
도 7에 도시된 아키텍처는 단지 선택적인 구현일 뿐이며, 실행 동안, 도 7에 도시된 컴포넌트들의 수 및 타입은 실제 요구에 따라 선택, 삭제, 추가 또는 대체될 수 있다는 점이 주목되어야 한다. 분리 설정 또는 통합 설정과 같은 구현들이 또한 상이한 기능 컴포넌트 설정들에 대해 채택될 수 있는데, 예를 들어, GPU(713) 및 CPU(701)가 개별적으로 설정될 수 있거나 또는 GPU(713)가 CPU(701) 상에 통합될 수 있고, 통신부가 개별적으로 설정될 수 있거나, 또는 CPU(701) 또는 GPU(713) 상에 통합될 수 있는 등이다. 이러한 대안적인 실시예들은 모두 본 개시내용의 보호 범위에 속한다.
특히, 본 개시내용의 실시예들에 따르면, 흐름도들을 참조하여 위에서 설명된 프로세스들은 컴퓨터 소프트웨어 프로그램들로서 구현될 수 있다. 예를 들어, 본 개시내용의 실시예들은 머신 판독가능 매체 상에 유형으로 구현된 컴퓨터 프로그램을 포함하는 컴퓨터 프로그램 제품을 포함한다. 컴퓨터 프로그램은 흐름도들에 도시된 방법들을 실행하기 위한 프로그램 코드들을 포함한다. 프로그램 코드들은 본 개시내용의 실시예들에서 제공되는 방법 단계들을 실행하기 위한 명령어들을 포함할 수 있다. 예를 들어, 이 방법 단계들은: 비디오의 기준 프레임 이미지 내의 대상 물체에 따라, 비디오의 현재 프레임 이미지 내의 적어도 하나의 후보 물체를 검출하는 단계; 비디오의 적어도 하나의 이전 프레임 이미지 내의 간섭 물체를 획득하는 단계; 획득된 간섭 물체에 따라 적어도 하나의 후보 물체의 필터링 정보를 조정하는 단계; 및 필터링 정보가 미리 결정된 조건을 충족하는 적어도 하나의 후보 물체 중 하나를 현재 프레임 이미지 내의 대상 물체로서 결정하는 단계를 포함한다. 이러한 실시예들에서, 컴퓨터 프로그램은 통신 컴포넌트(709)를 통해 네트워크로부터 다운로드 및 설치되고 및/또는 이동식 매체(711)로부터 설치될 수 있다. 컴퓨터 프로그램이 CPU(701)에 의해 실행될 때, 본 개시내용의 방법들에서 정의된 전술한 기능들이 실행된다.
하나 이상의 선택적인 구현에서, 본 개시내용의 실시예들은 컴퓨터 판독가능 명령어들을 저장하기 위한 컴퓨터 프로그램 제품을 추가로 제공한다. 컴퓨터 판독가능 명령어들이 실행될 때, 컴퓨터는 전술한 가능한 구현들 중 임의의 것에 의해 설명된 물체 추적 방법을 실행하게 된다.
컴퓨터 프로그램 제품은 하드웨어, 소프트웨어 또는 이들의 조합에 의해 구현될 수 있다. 선택적인 예에서, 컴퓨터 프로그램 제품은 컴퓨터 저장 매체로서 구현된다. 다른 선택적인 예에서, 컴퓨터 프로그램 제품은 SDK(Software Development Kit) 등과 같은 소프트웨어 제품으로서 구현된다.
하나 이상의 선택적인 구현에서, 본 개시내용의 실시예들은 물체 추적 방법 및 대응하는 장치, 전자 디바이스, 컴퓨터 저장 매체, 컴퓨터 프로그램, 및 컴퓨터 프로그램 제품을 추가로 제공하고, 여기서 본 방법은: 제1 장치가 제2 장치로 하여금 상기 가능한 실시예들 중 임의의 실시예에서의 물체 추적 방법을 실행하게 하는 물체 추적 명령어를 제2 장치에 전송하고; 제1 장치는 제2 장치에 의해 전송된 물체 추적 결과를 수신한다.
일부 실시예들에서, 물체 추적 명령어는 호출 명령어일 수 있고, 제1 장치는 호출에 의해 물체 추적을 수행하도록 제2 장치에 지시할 수 있다. 따라서, 호출 명령어를 수신하는 것에 응답하여, 제2 장치는 상기 실시예들 중 임의의 것에서의 물체 추적 방법의 단계들 및/또는 프로세스들을 실행할 수 있다.
본 개시내용의 실시예들에서 "제1" 및 "제2"와 같은 용어들은 단지 구별을 위한 것이고, 본 개시내용의 실시예들을 제한하는 것으로 해석되어서는 안된다는 것을 이해해야 한다.
본 개시내용에서, "복수의"는 2개 이상을 지칭할 수 있고, "적어도 하나"는 1개, 2개 이상을 지칭할 수 있다는 점이 또한 이해되어야 한다.
본 개시내용에서 언급된 컴포넌트들, 데이터 또는 구조들 중 임의의 것은 맥락에서의 반대의 동기를 명시적으로 정의하거나 제공하지 않고 컴포넌트들, 데이터 또는 구조들 중 하나 이상으로서 일반적으로 이해될 수도 있다는 것이 또한 이해되어야 한다.
본 개시내용의 다양한 실시예들의 설명은 다양한 실시예들 사이의 차이들을 강조하는데 초점을 맞추고, 동일하거나 유사한 점들은 서로 참조될 수 있다는 점이 또한 이해되어야 한다. 간략화를 위해, 동일하거나 유사한 부분들은 본 명세서에서 다시 설명되지 않을 것이다.
본 설명에서의 다양한 실시예들은 점진적 방식으로 설명되고, 각각의 실시예의 강조하는 설명은 다른 실시예들과 상이하고, 다양한 실시예들 사이의 동일하거나 유사한 부분들은 서로 참조될 수 있다. 시스템 실시예에 대해, 시스템 실시예는 실질적으로 방법 실시예에 대응하므로, 설명은 비교적 간단하고, 방법 실시예의 설명의 일부가 참조될 수 있다.
본 개시내용의 방법들 및 장치들은 많은 방식들로 구현될 수 있다. 예를 들어, 본 개시내용의 방법들 및 장치들은 소프트웨어, 하드웨어, 펌웨어, 또는 소프트웨어, 하드웨어, 펌웨어의 임의의 조합에 의해 구현될 수 있다. 방법들에 대한 단계들의 전술한 순서는 단지 예시를 위한 것이고, 본 개시내용의 방법들의 단계들은 달리 구체적으로 언급되지 않는 한 전술한 순서에 한정되지 않는다. 또한, 일부 실시예들에서, 본 개시내용은 또한 본 개시내용에 따른 방법들을 구현하기 위한 머신 판독가능 명령어들을 포함하는, 기록 매체에 기록된 프로그램들로서 구현될 수 있다. 따라서, 본 개시내용은 또한 본 개시내용에 따른 방법들을 실행하기 위한 프로그램을 저장하는 기록 매체를 커버한다.
본 개시내용의 설명들은 예 및 설명의 목적들으로 제공되고, 본 개시내용을 생략하거나 개시된 형태들로 제한하지 않는다. 많은 수정들 및 변형들이 본 기술분야의 통상의 기술자에게 명백할 것이다. 실시예들은 본 개시내용의 원리들 및 실제적인 응용들의 더 양호한 예시를 위하여, 그리고 본 기술분야의 통상의 기술자들이 특정한 사용에 적당한 다양한 수정들을 갖는 다양한 실시예들을 설계하기 위하여 본 개시내용을 이해할 수 있게 하기 위하여 선택되고 설명된다.

Claims (44)

  1. 물체 추적 방법으로서,
    비디오의 기준 프레임 이미지 내의 대상 물체에 따라, 상기 비디오의 현재 프레임 이미지 내의 적어도 하나의 후보 물체를 검출하는 단계;
    상기 비디오의 적어도 하나의 이전 프레임 이미지 내의 간섭 물체를 획득하는 단계;
    상기 획득된 간섭 물체에 따라 상기 적어도 하나의 후보 물체의 필터링 정보를 조정하는 단계; 및
    필터링 정보가 미리 결정된 조건을 충족하는 상기 적어도 하나의 후보 물체 중 하나를 상기 현재 프레임 이미지 내의 대상 물체로서 결정하는 단계를 포함하는 물체 추적 방법.
  2. 제1항에 있어서,
    상기 비디오의 상기 현재 프레임 이미지는 상기 기준 프레임 이미지 이후에 있고,
    상기 적어도 하나의 이전 프레임 이미지는: 상기 기준 프레임 이미지, 및/또는 상기 기준 프레임 이미지와 상기 현재 프레임 이미지 사이에 위치되는 적어도 하나의 중간 프레임 이미지를 포함하는 물체 추적 방법.
  3. 제1항 또는 제2항에 있어서,
    상기 적어도 하나의 후보 물체 중 하나 이상을 상기 현재 프레임 이미지 내의 간섭 물체들로서 결정하는 단계를 추가로 포함하고, 상기 적어도 하나의 후보 물체 중 하나 이상은 상기 대상 물체로서 결정되지 않는 물체 추적 방법.
  4. 제1항 내지 제3항 중 어느 한 항에 있어서,
    상기 획득된 간섭 물체에 따라 상기 적어도 하나의 후보 물체의 필터링 정보를 조정하는 단계는:
    상기 적어도 하나의 후보 물체 각각에 대해,
    상기 후보 물체와 상기 획득된 간섭 물체 사이의 제1 유사도를 결정하는 단계; 및
    상기 제1 유사도에 따라 상기 후보 물체의 필터링 정보를 조정하는 단계를 포함하는 물체 추적 방법.
  5. 제4항에 있어서,
    상기 후보 물체와 상기 획득된 간섭 물체 사이의 제1 유사도를 결정하는 단계는;
    상기 후보 물체의 특징 및 상기 획득된 간섭 물체의 특징에 따라 상기 제1 유사도를 결정하는 단계를 포함하는 물체 추적 방법.
  6. 제1항 내지 제5항 중 어느 한 항에 있어서,
    상기 비디오의 상기 기준 프레임 이미지와 상기 현재 프레임 이미지 사이의 적어도 하나의 중간 프레임 이미지 내의 대상 물체를 획득하는 단계; 및
    상기 적어도 하나의 중간 프레임 이미지 내의 상기 대상 물체에 따라 상기 적어도 하나의 후보 물체의 필터링 정보를 최적화하는 단계를 추가로 포함하는 물체 추적 방법.
  7. 제6항에 있어서,
    상기 적어도 하나의 중간 프레임 이미지 내의 상기 대상 물체에 따라 상기 적어도 하나의 후보 물체의 필터링 정보를 최적화하는 단계는:
    상기 적어도 하나의 후보 물체 각각에 대해,
    상기 적어도 하나의 중간 프레임 이미지 내의 상기 대상 물체와 상기 후보 물체 사이의 제2 유사도를 결정하는 단계; 및
    상기 제2 유사도에 따라 상기 후보 물체의 필터링 정보를 최적화하는 단계를 포함하는 물체 추적 방법.
  8. 제7항에 있어서,
    상기 적어도 하나의 중간 프레임 이미지 내의 상기 대상 물체와 상기 후보 물체 사이의 제2 유사도를 결정하는 단계는;
    상기 적어도 하나의 중간 프레임 이미지 내의 상기 대상 물체의 특징 및 상기 후보 물체의 특징에 따라 상기 제2 유사도를 결정하는 단계를 포함하는 물체 추적 방법.
  9. 제1항 내지 제8항 중 어느 한 항에 있어서,
    상기 비디오의 상기 기준 프레임 이미지 내의 상기 대상 물체에 따라 상기 비디오의 상기 현재 프레임 이미지 내의 적어도 하나의 후보 물체를 검출하는 단계는:
    상기 기준 프레임 이미지 내의 상기 대상 물체의 이미지와 상기 현재 프레임 이미지 사이의 상관 관계를 결정하는 단계; 및
    상기 상관 관계에 따라 상기 현재 프레임 이미지 내의 상기 적어도 하나의 후보 물체의 경계 박스들 및 필터링 정보를 획득하는 단계를 포함하는 물체 추적 방법.
  10. 제9항에 있어서,
    상기 기준 프레임 이미지 내의 상기 대상 물체의 이미지와 상기 현재 프레임 이미지 사이의 상관 관계를 결정하는 단계는;
    상기 기준 프레임 이미지 내의 상기 대상 물체의 이미지의 제1 특징 및 상기 현재 프레임 이미지의 제2 특징에 따라 상기 상관 관계를 결정하는 단계를 포함하는 물체 추적 방법.
  11. 제9항 또는 제10항에 있어서,
    필터링 정보가 상기 미리 결정된 조건을 충족하는 상기 적어도 하나의 후보 물체 중 하나를 상기 현재 프레임 이미지 내의 대상 물체로서 결정하는 단계는:
    필터링 정보가 상기 미리 결정된 조건을 충족하는 상기 적어도 하나의 후보 물체 중 하나의 경계 박스를 상기 현재 프레임 이미지 내의 대상 물체의 경계 박스로서 결정하는 단계를 포함하는 물체 추적 방법.
  12. 제11항에 있어서,
    필터링 정보가 상기 미리 결정된 조건을 충족하는 상기 후보 물체의 경계 박스를 상기 현재 프레임 이미지 내의 상기 대상 물체의 경계 박스로서 결정한 후에,
    상기 현재 프레임 이미지 내의 상기 대상 물체의 경계 박스를 표시하는 단계를 추가로 포함하는 물체 추적 방법.
  13. 제1항 내지 제12항 중 어느 한 항에 있어서,
    상기 비디오의 상기 기준 프레임 이미지 내의 상기 대상 물체에 따라 상기 비디오의 상기 현재 프레임 이미지 내의 적어도 하나의 후보 물체를 검출하기 전에,
    상기 현재 프레임 이미지 내의 검색 영역을 획득하는 단계를 추가로 포함하고;
    상기 비디오의 상기 기준 프레임 이미지 내의 상기 대상 물체에 따라 상기 비디오의 상기 현재 프레임 이미지 내의 적어도 하나의 후보 물체를 검출하는 단계는:
    상기 현재 프레임 이미지 내의 검색 영역 내에서 그리고 상기 비디오의 상기 기준 프레임 이미지 내의 대상 물체에 따라, 상기 비디오의 상기 현재 프레임 이미지 내의 상기 적어도 하나의 후보 물체를 검출하는 단계를 포함하는 물체 추적 방법.
  14. 제1항 내지 제13항 중 어느 한 항에 있어서,
    필터링 정보가 상기 미리 결정된 조건을 충족하는 상기 적어도 하나의 후보 물체 중 하나를 상기 현재 프레임 이미지 내의 상기 대상 물체로서 결정한 후에,
    상기 현재 프레임 이미지 내의 상기 대상 물체의 필터링 정보에 따라 상기 비디오의 상기 현재 프레임 이미지에 인접한 다음 프레임 이미지 내의 검색 영역을 결정하는 단계를 추가로 포함하는 물체 추적 방법.
  15. 제14항에 있어서,
    상기 현재 프레임 이미지 내의 상기 대상 물체의 필터링 정보에 따라 상기 비디오의 상기 현재 프레임 이미지에 인접한 다음 프레임 이미지 내의 검색 영역을 결정하는 단계는:
    상기 대상 물체의 필터링 정보가 제1 미리 결정된 임계값보다 작은지를 검출하는 단계;
    상기 대상 물체의 필터링 정보가 상기 제1 미리 결정된 임계값보다 작다고 결정하는 것에 응답하여, 확장된 검색 영역이 상기 현재 프레임 이미지를 커버할 때까지 미리 결정된 스텝 길이에 따라 상기 검색 영역을 점진적으로 확장하고, 상기 확장된 검색 영역을 상기 현재 프레임 이미지에 인접한 다음 프레임 이미지 내의 검색 영역으로서 사용하는 단계; 및/또는
    상기 대상 물체의 필터링 정보가 상기 제1 미리 결정된 임계값 이상이라고 결정하는 것에 응답하여, 상기 비디오의 상기 현재 프레임 이미지에 인접한 다음 프레임 이미지를 현재 프레임 이미지로서 취하고, 상기 현재 프레임 이미지 내의 검색 영역을 획득하는 단계를 포함하는 물체 추적 방법.
  16. 제15항에 있어서,
    상기 확장된 검색 영역이 상기 현재 프레임 이미지를 커버할 때까지 상기 미리 결정된 스텝 길이에 따라 상기 검색 영역을 점진적으로 확장한 후에,
    상기 비디오의 상기 현재 프레임 이미지에 인접한 다음 프레임 이미지를 현재 프레임 이미지로서 취하는 단계;
    상기 확장된 검색 영역 내에서 상기 현재 프레임 이미지 내의 상기 대상 물체를 결정하는 단계;
    상기 대상 물체의 필터링 정보가 제2 미리 결정된 임계값보다 큰지를 검출하는 단계; - 상기 제2 미리 결정된 임계값은 상기 제1 미리 결정된 임계값보다 큼 -;
    상기 대상 물체의 필터링 정보가 상기 제2 미리 결정된 임계값보다 크다고 결정하는 것에 응답하여, 상기 현재 프레임 이미지 내의 검색 영역을 획득하는 단계; 및/또는
    상기 대상 물체의 필터링 정보가 상기 제2 미리 결정된 임계값 이하라고 결정하는 것에 응답하여, 상기 비디오의 상기 현재 프레임 이미지에 인접한 다음 프레임 이미지를 현재 프레임 이미지로서 취하고, 상기 확장된 검색 영역을 상기 현재 프레임 이미지 내의 검색 영역으로서 획득하는 단계를 추가로 포함하는 물체 추적 방법.
  17. 제1항 내지 제16항 중 어느 한 항에 있어서,
    필터링 정보가 상기 미리 결정된 조건을 충족하는 상기 적어도 하나의 후보 물체 중 하나를 상기 현재 프레임 이미지 내의 상기 대상 물체로서 결정한 후에,
    상기 현재 프레임 이미지 내의 상기 대상 물체의 카테고리를 식별하는 단계를 추가로 포함하는 물체 추적 방법.
  18. 제1항 내지 제17항 중 어느 한 항에 있어서,
    상기 물체 추적 방법은 신경망에 의해 수행되고, 상기 신경망은 샘플 이미지들을 사용하여 훈련되고, 상기 샘플 이미지들은 양의 샘플들 및 음의 샘플들을 포함하고, 상기 양의 샘플들은: 미리 결정된 훈련 데이터 세트 내의 양의 샘플 이미지들과 미리 결정된 테스트 데이터 세트 내의 양의 샘플 이미지들을 포함하는 물체 추적 방법.
  19. 제18항에 있어서,
    상기 양의 샘플들은: 상기 미리 결정된 테스트 데이터 세트 내의 상기 양의 샘플 이미지들에 대해 데이터 강화 처리를 수행함으로써 획득된 양의 샘플 이미지들을 추가로 포함하는 물체 추적 방법.
  20. 제18항 또는 제19항에 있어서,
    상기 음의 샘플들은: 상기 대상 물체와 동일한 카테고리를 갖는 물체의 음의 샘플 이미지, 및/또는 상기 대상 물체와 상이한 카테고리를 갖는 물체의 음의 샘플 이미지를 포함하는 물체 추적 방법.
  21. 물체 추적 장치로서,
    비디오의 기준 프레임 이미지 내의 대상 물체에 따라 상기 비디오의 현재 프레임 이미지 내의 적어도 하나의 후보 물체를 검출하도록 구성된 검출 유닛;
    상기 비디오의 적어도 하나의 이전 프레임 이미지 내의 간섭 물체를 획득하도록 구성된 획득 유닛;
    상기 획득된 간섭 물체에 따라 상기 적어도 하나의 후보 물체의 필터링 정보를 조정하도록 구성된 조정 유닛; 및
    필터링 정보가 미리 결정된 조건을 충족하는 상기 적어도 하나의 후보 물체 중 하나를 상기 현재 프레임 이미지 내의 대상 물체로서 결정하도록 구성된 결정 유닛을 포함하는 물체 추적 장치.
  22. 제21항에 있어서,
    상기 비디오의 상기 현재 프레임 이미지는 상기 기준 프레임 이미지 이후에 있고,
    상기 적어도 하나의 이전 프레임 이미지는: 상기 기준 프레임 이미지, 및/또는 상기 기준 프레임 이미지와 상기 현재 프레임 이미지 사이에 위치되는 적어도 하나의 중간 프레임 이미지를 포함하는 물체 추적 장치.
  23. 제21항 또는 제22항에 있어서,
    상기 결정 유닛은 상기 적어도 하나의 후보 물체 중 하나 이상을 상기 현재 프레임 이미지 내의 간섭 물체들로서 결정하도록 추가로 구성되고, 상기 적어도 하나의 후보 물체 중 하나 이상은 상기 대상 물체로서 결정되지 않는 물체 추적 장치.
  24. 제21항 내지 제23항 중 어느 한 항에 있어서,
    상기 조정 유닛은:
    상기 적어도 하나의 후보 물체 각각에 대해,
    상기 후보 물체와 상기 획득된 간섭 물체 사이의 제1 유사도를 결정하고;
    상기 제1 유사도에 따라 상기 후보 물체의 필터링 정보를 조정하도록 구성되는 물체 추적 장치.
  25. 제24항에 있어서,
    상기 조정 유닛은 상기 후보 물체의 특징 및 상기 획득된 간섭 물체의 특징에 따라 상기 제1 유사도를 결정하도록 구성되는 물체 추적 장치.
  26. 제21항 내지 제25항 중 어느 한 항에 있어서,
    상기 획득 유닛은 상기 비디오의 상기 기준 프레임 이미지와 상기 현재 프레임 이미지 사이의 적어도 하나의 중간 프레임 이미지 내의 대상 물체를 획득하도록 추가로 구성되고;
    상기 장치는:
    상기 적어도 하나의 중간 프레임 이미지 내의 상기 대상 물체에 따라 상기 적어도 하나의 후보 물체의 필터링 정보를 최적화하도록 구성된 최적화 유닛을 추가로 포함하는 물체 추적 장치.
  27. 제26항에 있어서,
    상기 최적화 유닛은:
    상기 적어도 하나의 후보 물체 각각에 대해,
    상기 적어도 하나의 중간 프레임 이미지 내의 상기 대상 물체와 상기 후보 물체 사이의 제2 유사도를 결정하고;
    상기 제2 유사도에 따라 상기 후보 물체의 필터링 정보를 최적화하도록 구성되는 물체 추적 장치.
  28. 제27항에 있어서,
    상기 최적화 유닛은 상기 적어도 하나의 중간 프레임 이미지 내의 상기 대상 물체의 특징 및 상기 후보 물체의 특징에 따라 상기 제2 유사도를 결정하도록 구성되는 물체 추적 장치.
  29. 제21항 내지 제28항 중 어느 한 항에 있어서,
    상기 검출 유닛은:
    상기 기준 프레임 이미지 내의 상기 대상 물체의 이미지와 상기 현재 프레임 이미지 사이의 상관 관계를 결정하고;
    상기 상관 관계에 따라 상기 현재 프레임 이미지 내의 상기 적어도 하나의 후보 물체의 경계 박스들 및 필터링 정보를 획득하도록 구성되는 물체 추적 장치.
  30. 제29항에 있어서,
    상기 검출 유닛은 상기 기준 프레임 이미지 내의 상기 대상 물체의 이미지의 제1 특징 및 상기 현재 프레임 이미지의 제2 특징에 따라 상기 상관 관계를 결정하도록 구성되는 물체 추적 장치.
  31. 제29항 또는 제30항에 있어서,
    상기 결정 유닛은 필터링 정보가 상기 미리 결정된 조건을 충족하는 상기 적어도 하나의 후보 물체 중 하나의 경계 박스를 상기 현재 프레임 이미지 내의 대상 물체의 경계 박스로서 결정하도록 구성되는 물체 추적 장치.
  32. 제31항에 있어서,
    상기 현재 프레임 이미지 내의 상기 대상 물체의 경계 박스를 표시하도록 구성된 디스플레이 유닛을 추가로 포함하는 물체 추적 장치.
  33. 제21항 내지 제32항 중 어느 한 항에 있어서,
    상기 현재 프레임 이미지 내의 검색 영역을 획득하도록 구성된 검색 유닛을 추가로 포함하고;
    상기 검출 유닛은 상기 현재 프레임 이미지 내의 검색 영역 내에서 그리고 상기 비디오의 상기 기준 프레임 이미지 내의 대상 물체에 따라, 상기 비디오의 상기 현재 프레임 이미지 내의 상기 적어도 하나의 후보 물체를 검출하도록 구성되는 물체 추적 장치.
  34. 제21항 내지 제33항 중 어느 한 항에 있어서,
    상기 검색 유닛은 상기 현재 프레임 이미지 내의 상기 대상 물체의 필터링 정보에 따라 상기 비디오의 상기 현재 프레임 이미지에 인접한 다음 프레임 이미지 내의 검색 영역을 결정하도록 추가로 구성되는 물체 추적 장치.
  35. 제21항 내지 제34항 중 어느 한 항에 있어서,
    상기 검색 유닛은:
    상기 대상 물체의 필터링 정보가 제1 미리 결정된 임계값보다 작은지를 검출하고;
    상기 대상 물체의 필터링 정보가 상기 제1 미리 결정된 임계값보다 작다고 결정하는 것에 응답하여, 확장된 검색 영역이 상기 현재 프레임 이미지를 커버할 때까지 미리 결정된 스텝 길이에 따라 상기 검색 영역을 점진적으로 확장하고, 상기 확장된 검색 영역을 상기 현재 프레임 이미지에 인접한 다음 프레임 이미지 내의 검색 영역으로서 사용하고; 및/또는
    상기 대상 물체의 필터링 정보가 상기 제1 미리 결정된 임계값 이상이라고 결정하는 것에 응답하여, 상기 비디오의 상기 현재 프레임 이미지에 인접한 다음 프레임 이미지를 현재 프레임 이미지로서 취하고, 상기 현재 프레임 이미지 내의 검색 영역을 획득하도록 구성되는 물체 추적 장치.
  36. 제35항에 있어서,
    상기 확장된 검색 영역 내에서 상기 현재 프레임 이미지 내의 상기 대상 물체를 결정한 후에, 상기 검색 유닛은:
    상기 대상 물체의 필터링 정보가 제2 미리 결정된 임계값보다 큰지를 검출하고; - 상기 제2 미리 결정된 임계값은 상기 제1 미리 결정된 임계값보다 큼 -;
    상기 대상 물체의 필터링 정보가 상기 제2 미리 결정된 임계값보다 크다고 결정하는 것에 응답하여, 상기 현재 프레임 이미지 내의 검색 영역을 획득하고; 및/또는
    상기 대상 물체의 필터링 정보가 상기 제2 미리 결정된 임계값 이하라고 결정하는 것에 응답하여, 상기 비디오의 상기 현재 프레임 이미지에 인접한 다음 프레임 이미지를 현재 프레임 이미지로서 취하고, 상기 확장된 검색 영역을 상기 현재 프레임 이미지 내의 검색 영역으로서 획득하도록 추가로 구성되는 물체 추적 장치.
  37. 제21항 내지 제36항 중 어느 한 항에 있어서,
    상기 현재 프레임 이미지 내의 상기 대상 물체의 카테고리를 식별하도록 구성된 식별 유닛을 추가로 포함하는 물체 추적 장치.
  38. 제21항 내지 제37항 중 어느 한 항에 있어서,
    물체 추적 방법이 실행되는 신경망을 추가로 포함하고, 상기 신경망은 샘플 이미지들을 사용하여 훈련되고, 상기 샘플 이미지들은 양의 샘플들 및 음의 샘플들을 포함하고, 상기 양의 샘플들은: 미리 결정된 훈련 데이터 세트 내의 양의 샘플 이미지들과 미리 결정된 테스트 데이터 세트 내의 양의 샘플 이미지들을 포함하는 물체 추적 장치.
  39. 제38항에 있어서,
    상기 양의 샘플들은: 상기 미리 결정된 테스트 데이터 세트 내의 상기 양의 샘플 이미지들에 대해 데이터 강화 처리를 수행함으로써 획득된 양의 샘플 이미지들을 추가로 포함하는 물체 추적 장치.
  40. 제38항 또는 제39항에 있어서,
    상기 음의 샘플들은: 상기 대상 물체와 동일한 카테고리를 갖는 물체의 음의 샘플 이미지, 및/또는 상기 대상 물체와 상이한 카테고리를 갖는 물체의 음의 샘플 이미지를 포함하는 물체 추적 장치.
  41. 전자 디바이스로서,
    제21항 내지 제40항 중 어느 한 항에 따른 장치를 포함하는 전자 디바이스.
  42. 전자 디바이스로서,
    실행가능한 명령어들을 저장하는 메모리; 및
    상기 실행가능한 명령어들을 실행하여 제1항 내지 제20항 중 어느 한 항에 따른 방법을 완료하도록 구성된 프로세서를 포함하는 전자 디바이스.
  43. 컴퓨터 저장 매체로서,
    컴퓨터 판독가능 명령어들이 실행될 때, 제1항 내지 제20항 중 어느 한 항에 따른 방법이 구현되는 컴퓨터 판독가능 명령어들을 저장하기 위한 컴퓨터 저장 매체.
  44. 컴퓨터 판독가능 코드들을 포함하는 컴퓨터 프로그램으로서,
    상기 컴퓨터 판독가능 코드들이 디바이스 상에서 실행될 때, 상기 디바이스 내의 프로세서가 제1항 내지 제20항 중 어느 한 항에 따른 방법을 구현하기 위한 명령어들을 실행하게 하는 컴퓨터 프로그램.
KR1020207037347A 2018-08-07 2019-08-02 물체 추적 방법들 및 장치들, 전자 디바이스들 및 저장 매체 KR20210012012A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201810893022.3A CN109284673B (zh) 2018-08-07 2018-08-07 对象跟踪方法及装置、电子设备及存储介质
CN201810893022.3 2018-08-07
PCT/CN2019/099001 WO2020029874A1 (zh) 2018-08-07 2019-08-02 对象跟踪方法及装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
KR20210012012A true KR20210012012A (ko) 2021-02-02

Family

ID=65182985

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020207037347A KR20210012012A (ko) 2018-08-07 2019-08-02 물체 추적 방법들 및 장치들, 전자 디바이스들 및 저장 매체

Country Status (6)

Country Link
US (1) US20210124928A1 (ko)
JP (1) JP7093427B2 (ko)
KR (1) KR20210012012A (ko)
CN (1) CN109284673B (ko)
SG (1) SG11202011644XA (ko)
WO (1) WO2020029874A1 (ko)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109284673B (zh) * 2018-08-07 2022-02-22 北京市商汤科技开发有限公司 对象跟踪方法及装置、电子设备及存储介质
CN109726683B (zh) 2018-12-29 2021-06-22 北京市商汤科技开发有限公司 目标对象检测方法和装置、电子设备和存储介质
CN110223325B (zh) * 2019-06-18 2021-04-27 北京字节跳动网络技术有限公司 对象跟踪方法、装置及设备
CN111797728A (zh) * 2020-06-19 2020-10-20 浙江大华技术股份有限公司 一种运动物体的检测方法、装置、计算设备及存储介质
CN112037255A (zh) * 2020-08-12 2020-12-04 深圳市道通智能航空技术有限公司 目标跟踪方法和装置
CN112085769A (zh) * 2020-09-09 2020-12-15 武汉融氢科技有限公司 对象追踪方法及装置、电子设备
CN115393616A (zh) * 2022-07-11 2022-11-25 影石创新科技股份有限公司 目标跟踪方法、装置、设备以及存储介质

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10222678A (ja) * 1997-02-05 1998-08-21 Toshiba Corp 物体検出装置および物体検出方法
JP2002342762A (ja) * 2001-05-22 2002-11-29 Matsushita Electric Ind Co Ltd 物体追跡方法
JP4337727B2 (ja) * 2004-12-14 2009-09-30 パナソニック電工株式会社 人体検知装置
JP4515332B2 (ja) * 2005-05-30 2010-07-28 オリンパス株式会社 画像処理装置及び対象領域追跡プログラム
JP5024116B2 (ja) * 2007-05-02 2012-09-12 株式会社ニコン 被写体追跡プログラム、および被写体追跡装置
US8224029B2 (en) * 2008-03-03 2012-07-17 Videoiq, Inc. Object matching for tracking, indexing, and search
CN102136147B (zh) * 2011-03-22 2012-08-22 深圳英飞拓科技股份有限公司 一种目标检测与跟踪方法、系统及视频监控设备
JP2013012940A (ja) * 2011-06-29 2013-01-17 Olympus Imaging Corp 追尾装置及び追尾方法
US9495591B2 (en) * 2012-04-13 2016-11-15 Qualcomm Incorporated Object recognition using multi-modal matching scheme
CN103593641B (zh) * 2012-08-16 2017-08-11 株式会社理光 基于立体摄像机的物体检测方法和装置
CN106355188B (zh) * 2015-07-13 2020-01-21 阿里巴巴集团控股有限公司 图像检测方法及装置
CN105654510A (zh) * 2015-12-29 2016-06-08 江苏精湛光电仪器股份有限公司 适用于夜间场景下的基于特征融合的自适应目标跟踪方法
CN105760854B (zh) * 2016-03-11 2019-07-26 联想(北京)有限公司 信息处理方法及电子设备
US10395385B2 (en) * 2017-06-27 2019-08-27 Qualcomm Incorporated Using object re-identification in video surveillance
CN107633220A (zh) * 2017-09-13 2018-01-26 吉林大学 一种基于卷积神经网络的车辆前方目标识别方法
CN107748873B (zh) * 2017-10-31 2019-11-26 河北工业大学 一种融合背景信息的多峰目标跟踪方法
CN108009494A (zh) * 2017-11-30 2018-05-08 中山大学 一种基于无人机的道路交叉口车辆跟踪方法
CN109284673B (zh) * 2018-08-07 2022-02-22 北京市商汤科技开发有限公司 对象跟踪方法及装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN109284673B (zh) 2022-02-22
WO2020029874A1 (zh) 2020-02-13
US20210124928A1 (en) 2021-04-29
CN109284673A (zh) 2019-01-29
JP7093427B2 (ja) 2022-06-29
JP2021526269A (ja) 2021-09-30
SG11202011644XA (en) 2020-12-30

Similar Documents

Publication Publication Date Title
US11455782B2 (en) Target detection method and apparatus, training method, electronic device and medium
KR20210012012A (ko) 물체 추적 방법들 및 장치들, 전자 디바이스들 및 저장 매체
US20210398294A1 (en) Video target tracking method and apparatus, computer device, and storage medium
US10943145B2 (en) Image processing methods and apparatus, and electronic devices
Işık et al. SWCD: a sliding window and self-regulated learning-based background updating method for change detection in videos
US11182592B2 (en) Target object recognition method and apparatus, storage medium, and electronic device
WO2020108311A1 (zh) 目标对象3d检测方法、装置、介质及设备
KR102292559B1 (ko) 단안 이미지 깊이 추정 방법 및 장치, 기기, 프로그램 및 저장 매체
CN109035304B (zh) 目标跟踪方法、介质、计算设备和装置
US20190156144A1 (en) Method and apparatus for detecting object, method and apparatus for training neural network, and electronic device
EP3376469A1 (en) Method and device for tracking location of human face, and electronic equipment
Tavakkoli et al. Non-parametric statistical background modeling for efficient foreground region detection
US20160004935A1 (en) Image processing apparatus and image processing method which learn dictionary
JP2018509678A (ja) ターゲット取得の方法及び装置
EP2660753B1 (en) Image processing method and apparatus
CN116324878A (zh) 针对图像效果的分割
CN110858316A (zh) 对时间序列图像数据进行分类
CN110909685A (zh) 姿势估计方法、装置、设备及存储介质
CN108509876B (zh) 针对视频的物体检测方法、装置、设备、存储介质及程序
CN114495041A (zh) 车辆与目标物之间距离的测量方法、装置、设备及介质
JPWO2018179119A1 (ja) 映像解析装置、映像解析方法およびプログラム
EP4332910A1 (en) Behavior detection method, electronic device, and computer readable storage medium
CN115004245A (zh) 目标检测方法、装置、电子设备和计算机存储介质
CN113628192A (zh) 图像模糊检测方法、装置、设备、存储介质及程序产品
Zhou et al. On contrast combinations for visual saliency detection

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E601 Decision to refuse application