KR20220108165A - 타깃 추적 방법, 장치, 전자 기기 및 저장 매체 - Google Patents

타깃 추적 방법, 장치, 전자 기기 및 저장 매체 Download PDF

Info

Publication number
KR20220108165A
KR20220108165A KR1020227023350A KR20227023350A KR20220108165A KR 20220108165 A KR20220108165 A KR 20220108165A KR 1020227023350 A KR1020227023350 A KR 1020227023350A KR 20227023350 A KR20227023350 A KR 20227023350A KR 20220108165 A KR20220108165 A KR 20220108165A
Authority
KR
South Korea
Prior art keywords
image
tracked
detection box
region
target
Prior art date
Application number
KR1020227023350A
Other languages
English (en)
Inventor
페이 왕
첸 퀴안
Original Assignee
상하이 센스타임 린강 인텔리전트 테크놀로지 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 상하이 센스타임 린강 인텔리전트 테크놀로지 컴퍼니 리미티드 filed Critical 상하이 센스타임 린강 인텔리전트 테크놀로지 컴퍼니 리미티드
Publication of KR20220108165A publication Critical patent/KR20220108165A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/248Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20076Probabilistic image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/12Bounding box

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

타깃 추적 방법, 장치, 전자 기기 및 컴퓨터 판독 가능 저장 매체로서, 여기서, 상기 방법은, 우선 추적할 이미지 중의 검색 영역과 기준 프레임 중의 타깃 이미지 영역 사이의 이미지 유사성 특징맵을 결정하고, 그 후 이미지 유사성 특징에 기반하여 추적할 이미지 중의 포지셔닝할 영역의 포지셔닝 위치 정보를 예측 또는 결정하는 단계를 포함하며, 즉 검색 영역을 포함한 추적할 이미지에서 추적할 객체의 검출 박스를 결정한다.

Description

타깃 추적 방법, 장치, 전자 기기 및 저장 매체
관련 출원의 상호 참조
본 발명은 출원번호가 202010011243.0이고, 출원일자가 2020년 1월 6일인 중국특허출원에 기반하여 제출되며, 상기 중국특허출원의 우선권을 주장하는 바, 그 모든 내용은 참조로서 본 발명에 인용된다.
본 발명은 컴퓨터 기술, 이미지 처리 분야에 관한 것으로, 특히는 타깃 추적 방법, 장치, 전자 기기 및 컴퓨터 판독 가능 저장 매체에 관한 것이다.
비전 타깃 추적은 컴퓨터 비전 중의 하나의 중요한 연구 방향으로서, 예를 들어 기계 자동 추적, 비디오 모니터링, 인간-기계 인터페이스, 자율주행 등 다양한 장면에 광범위하게 응용될 수 있다. 비전 타깃 추적 태스크는 일부 비디오 시퀀스 중 초기 프레임 중의 타깃 객체의 크기와 위치가 결정된 경우, 후속 프레임 중 상기 타깃 객체의 크기와 위치를 예측함으로써, 전체 비디오 시퀀스 내의 타깃의 운동 궤적을 얻는 것이다.
실제 추적 예측 프로세스에서, 시각, 조명, 사이즈, 차폐 등 불확정적인 간섭 요소의 영향으로 인해, 추적 과정에 드리프트 및 손실되는 상황이 극히 용이하게 발생한다. 이 뿐만 아니라, 추적 기술은 실제 모바일 단말기 구성 및 응용의 요구를 만족하기 위해, 흔히 비교적 높은 용이성 및 즉시성을 필요로 한다.
이를 감안하여, 본 발명의 실시예는 적어도 타깃 추적 방법, 장치, 전자 기기 및 컴퓨터 판독 가능 저장 매체를 제공한다.
제1 양태에 따르면, 본 발명의 실시예에서는 타깃 추적 방법을 제공하는 바,
비디오 이미지를 획득하는 단계;
상기 비디오 이미지 중의 기준 프레임 이미지를 제외한 후의 추적할 이미지에 대해, 상기 추적할 이미지 중의 검색 영역과 상기 기준 프레임 이미지 중의 타깃 이미지 영역 사이의 이미지 유사성 특징맵을 생성하는 단계 - 상기 타깃 이미지 영역 내에 추적할 객체가 포함됨 - ;
상기 이미지 유사성 특징맵에 따라, 상기 검색 영역 중의 포지셔닝할 영역의 포지셔닝 위치 정보를 결정하는 단계; 및
상기 검색 영역에서 상기 포지셔닝할 영역의 포지셔닝 위치 정보가 결정된 것에 응답하여, 결정된 포지셔닝할 영역의 포지셔닝 위치 정보에 따라 상기 검색 영역을 포함한 추적할 이미지에서 상기 추적할 객체의 검출 박스를 결정하는 단계를 포함한다.
한 가지 가능한 실시형태에서, 상기 이미지 유사성 특징맵에 따라, 상기 검색 영역 중의 포지셔닝할 영역의 포지셔닝 위치 정보를 결정하는 단계는, 상기 이미지 유사성 특징맵에 따라, 상기 포지셔닝할 영역의 사이즈 정보를 예측하는 단계; 상기 이미지 유사성 특징맵에 따라, 상기 검색 영역의 특징맵 중의 각 특징 픽셀점의 확률 값을 예측하는 단계 - 하나의 특징 픽셀점의 확률 값은 상기 검색 영역 중 상기 특징 픽셀점에 대응되는 픽셀점이 상기 포지셔닝할 영역 내에 위치할 확률을 나타냄 - ; 상기 이미지 유사성 특징맵에 따라, 상기 검색 영역 중 각 상기 특징 픽셀점에 대응되는 픽셀점과 상기 포지셔닝할 영역의 위치 관계 정보를 예측하는 단계; 예측한 확률 값에서 상기 확률 값이 최대인 특징 픽셀점에 대응되는 상기 검색 영역 중의 픽셀점을 선택하여 타깃 픽셀점으로 사용하는 단계; 및 상기 타깃 픽셀점, 상기 타깃 픽셀점과 상기 포지셔닝할 영역의 위치 관계 정보, 및 상기 포지셔닝할 영역의 사이즈 정보에 기반하여, 상기 포지셔닝할 영역의 포지셔닝 위치 정보를 결정하는 단계를 포함한다.
한 가지 가능한 실시형태에서, 상기 기준 프레임 이미지에서 상기 추적할 객체의 검출 박스를 결정하는 단계; 상기 기준 프레임 이미지 중의 상기 검출 박스의 사이즈 정보에 기반하여, 상기 기준 프레임 이미지 중의 상기 검출 박스에 대응되는 제1 연신 사이즈 정보를 결정하는 단계; 상기 제1 연신 사이즈 정보에 기반하여, 상기 기준 프레임 이미지 중의 상기 검출 박스를 시작 위치로 하여 주변을 향해 연신하여, 상기 타깃 이미지 영역을 얻는 단계에 따라, 상기 기준 프레임 이미지에서 상기 타깃 이미지 영역을 추출한다.
한 가지 가능한 실시형태에서, 상기 비디오 이미지 중 현재 프레임의 추적할 이미지의 바로 전의 프레임의 추적할 이미지에서, 상기 추적할 객체의 검출 박스를 획득하는 단계; 상기 바로 전의 프레임의 추적할 이미지 중의 상기 추적할 객체의 검출 박스의 사이즈 정보에 기반하여, 상기 바로 전의 프레임의 추적할 이미지 중의 상기 추적할 객체의 검출 박스에 대응되는 제2 연신 사이즈 정보를 결정하는 단계; 상기 제2 연신 사이즈 정보 및 상기 바로 전의 프레임의 추적할 이미지 중의 상기 추적할 객체의 검출 박스의 사이즈 정보에 기반하여, 현재 프레임의 추적할 이미지 중의 검색 영역의 사이즈 정보를 결정하는 단계; 및 상기 바로 전의 프레임의 추적할 이미지 중의 상기 추적할 객체의 검출 박스의 중심점을 현재 프레임의 추적할 이미지 중의 검색 영역의 중심으로 하고, 현재 프레임의 추적할 이미지 중의 검색 영역의 사이즈 정보에 따라 상기 검색 영역을 결정하는 단계에 따라, 추적할 이미지에서 검색 영역을 추출한다.
한 가지 가능한 실시형태에서, 상기 추적할 이미지 중의 검색 영역과 상기 기준 프레임 이미지 중의 타깃 이미지 영역 사이의 이미지 유사성 특징맵을 생성하는 상기 단계는, 상기 검색 영역을 제1 기설정 사이즈로 스케일링하고, 상기 타깃 이미지 영역을 제2 기설정 사이즈로 스케일링하는 단계; 상기 검색 영역 중의 제1 이미지 특징맵, 및 상기 타깃 이미지 영역 중의 제2 이미지 특징맵을 생성하는 단계 - 상기 제2 이미지 특징맵의 사이즈는 상기 제1 이미지 특징맵의 사이즈보다 작음 - ; 상기 제2 이미지 특징맵과 상기 제1 이미지 특징맵 중의 각 서브 이미지 특징맵 사이의 관련성 특징을 결정하는 단계 - 상기 서브 이미지 특징맵과 상기 제2 이미지 특징맵의 사이즈는 동일함 - ; 및 결정된 복수의 관련성 특징에 기반하여, 상기 이미지 유사성 특징맵을 생성하는 단계를 포함한다.
한 가지 가능한 실시형태에서, 상기 타깃 추적 방법은 추적 포지셔닝 신경망에 의해 수행되고; 상기 추적 포지셔닝 신경망은 타깃 객체의 검출 박스가 라벨링되어 있는 샘플 이미지에 의해 트레이닝 획득된다.
한 가지 가능한 실시형태에서, 상기 타깃 추적 방법은, 기준 프레임 샘플 이미지 및 추적할 샘플 이미지를 포함하는 샘플 이미지를 획득하는 단계; 상기 샘플 이미지를 트레이닝할 추적 포지셔닝 신경망에 입력하고, 상기 트레이닝할 추적 포지셔닝 신경망을 거쳐 입력된 샘플 이미지를 처리하여, 상기 추적할 샘플 이미지에서 상기 타깃 객체의 검출 박스를 예측하는 단계; 상기 추적할 샘플 이미지에 라벨링된 검출 박스 및 상기 추적할 샘플 이미지에서 예측한 검출 박스에 기반하여, 상기 트레이닝할 추적 포지셔닝 신경망의 네트워크 파라미터를 조절하는 단계를 거쳐, 상기 추적 포지셔닝 신경망을 트레이닝하는 단계를 더 포함한다.
한 가지 가능한 실시형태에서, 상기 추적할 샘플 이미지 중의 포지셔닝할 영역의 포지셔닝 위치 정보를 상기 추적할 샘플 이미지에서 예측한 검출 박스의 위치 정보로 사용하되, 상기 추적할 샘플 이미지에 라벨링된 검출 박스 및 상기 추적할 샘플 이미지에서 예측한 검출 박스에 기반하여, 상기 트레이닝할 추적 포지셔닝 신경망의 네트워크 파라미터를 조절하는 상기 단계는, 상기 추적할 샘플 이미지에서 예측한 검출 박스의 사이즈 정보, 상기 추적할 샘플 이미지 중 검색 영역에서 각 픽셀점이 상기 추적할 샘플 이미지에서 예측한 검출 박스 내에 위치하는 예측 확률 값, 상기 추적할 샘플 이미지 중 검색 영역에서 각 픽셀점과 상기 추적할 샘플 이미지에서 예측한 검출 박스의 예측 위치 관계 정보, 상기 추적할 샘플 이미지에 라벨링된 검출 박스의 표준 사이즈 정보, 상기 추적할 샘플 이미지 중 표준 검색 영역에서 각 픽셀점이 라벨링된 검출 박스에 위치하는지 여부의 정보, 상기 추적할 샘플 이미지 중 표준 검색 영역에서 각 픽셀점과 상기 추적할 샘플 이미지에 라벨링된 검출 박스의 표준 위치 관계 정보에 기반하여, 상기 트레이닝할 추적 포지셔닝 신경망의 네트워크 파라미터를 조절하는 단계를 포함한다.
제2 양태에 따르면, 본 발명의 실시예에서는 타깃 추적 장치를 제공하는 바,
비디오 이미지를 획득하는 이미지 획득 모듈;
상기 비디오 이미지 중의 기준 프레임 이미지를 제외한 후의 추적할 이미지에 대해, 상기 추적할 이미지 중의 검색 영역과 상기 기준 프레임 이미지 중의 타깃 이미지 영역 사이의 이미지 유사성 특징맵을 생성하는 유사성 특징 추출 모듈 - 상기 타깃 이미지 영역 내에 추적할 객체가 포함됨 - ;
상기 이미지 유사성 특징맵에 따라, 상기 검색 영역 중의 포지셔닝할 영역의 포지셔닝 위치 정보를 결정하는 포지셔닝 모듈; 및
상기 검색 영역에서 상기 포지셔닝할 영역의 포지셔닝 위치 정보가 결정된 것에 응답하여, 결정된 포지셔닝할 영역의 포지셔닝 위치 정보에 따라 상기 검색 영역을 포함한 추적할 이미지에서 상기 추적할 객체의 검출 박스를 결정하는 추적 모듈을 포함한다.
제3 양태에 따르면, 본 발명의 실시예에서는 전자 기기를 제공하는 바, 프로세서, 메모리 및 버스를 포함하고, 상기 메모리에는 상기 프로세서에 의해 실행 가능한 기계 판독 가능 명령이 저장되며, 전자 기기가 작동될 경우, 상기 프로세서와 상기 메모리 사이는 버스를 통해 통신하고, 상기 기계 판독 가능 명령이 상기 프로세서에 의해 실행될 경우 상기 타깃 추적 방법의 단계를 수행한다.
제4 양태에 따르면, 본 발명의 실시예에서는 컴퓨터 판독 가능 저장 매체를 더 제공하는 바, 상기 컴퓨터 판독 가능 저장 매체에는 컴퓨터 프로그램이 저장되며, 상기 컴퓨터 프로그램이 프로세서에 의해 실행될 경우 상기 타깃 추적 방법의 단계를 수행한다.
본 발명의 실시예의 상기 장치, 전자 기기, 및 컴퓨터 판독 가능 저장 매체는 적어도 본 발명의 실시예의 상기 방법의 임의의 양태 또는 임의의 양태의 임의의 실시형태의 기술 특징과 실질적으로 동일하거나 유사한 기술 특징을 포함하므로, 상기 장치, 전자 기기, 및 컴퓨터 판독 가능 저장 매체의 효과에 대한 서술은 상기 방법 내용의 효과의 서술을 참조 가능하며, 여기서 더 서술하지 않는다.
본 발명의 실시예의 기술적 해결수단을 보다 명확하게 설명하기 위하여 이하 본 발명의 실시예에서 사용되는 첨부 도면을 간단히 설명하며, 반드시 이해해야 할 것은, 하기의 도면은 단지 본 발명의 일부 실시예를 시사하였기에, 범위에 대한 한정으로 간주하여서는 아니되는 바, 본 기술분야의 통상의 기술자들은 진보성 창출에 힘 쓸 필요없이 이러한 도면으로부터 다른 관련 도면을 얻을 수 있을 것이다.
도 1은 본 발명의 실시예에 따라 제공되는 타깃 추적 방법의 흐름도이다.
도 2는 본 발명의 실시예 중의 포지셔닝할 영역의 중심점을 결정하는 모식도이다.
도 3은 본 발명의 실시예에 따라 제공되는 다른 타깃 추적 방법에서 타깃 이미지 영역을 추출하는 흐름도이다.
도 4는 본 발명의 실시예에 따라 제공되는 또 다른 타깃 추적에서 검색 영역을 추출하는 흐름도이다.
도 5는 본 발명의 실시예에 따라 제공되는 또 다른 타깃 추적 방법에서 이미지 유사성 특징맵을 생성하는 흐름도이다.
도 6은 본 발명의 실시예의 또 다른 타깃 추적 방법에서 이미지 유사성 특징맵을 생성하는 모식도이다.
도 7은 본 발명의 실시예의 또 다른 타깃 추적 방법에서 추적 포지셔닝 신경망을 트레이닝하는 흐름도이다.
도 8a는 본 발명의 실시예에 따라 제공되는 타깃 추적 방법의 흐름 모식도이다.
도 8b는 본 발명의 실시예에 따라 제공되는 포지셔닝 타깃의 흐름 모식도이다.
도 9는 본 발명의 실시예에 따라 제공되는 타깃 추적 장치의 구조 모식도이다.
도 10은 본 발명의 실시예에 따라 제공되는 전자 기기의 구조 모식도이다.
본 발명의 목적, 기술적 해결수단 및 장점을 더욱 분명하게 하기 위해, 이래 본 발명의 실시예 중의 도면과 결부하여, 본 발명의 실시예 중의 기술적 해결수단을 분명하고 완전하게 서술하도록 하며, 반드시 이해해야 할 것은, 본 발명의 실시예의 도면은 단지 설명 및 서술의 목적으로서, 본 발명의 실시예의 보호범위를 한정하지 않는다. 이 밖에, 반드시 이해해야 할 것은, 예시적인 도면은 실제 비율에 따라 제작되지 않는다. 본 발명의 실시예에서 사용되는 흐름도는 본 발명의 실시예에 따라 일부 실시예를 구현한 동작이다. 반드시 이해해야 할 것은, 흐름도의 동작은 순서에 따라 구현되지 않을 수 있고, 논리적 상관 관계가 없는 단계는 역순 또는 동시에 실시될 수 있다. 이 외에, 본 기술분야의 통상의 기술자는 본 발명의 실시예의 내용의 안내에 따라, 흐름도에 하나 이상의 다른 동작을 추가할 수 있고, 흐름도에서 하나 이상의 동작을 제거할 수도 있다.
이 밖에, 설명된 실시예는 본 발명의 일부 실시예일 뿐 전체 실시예가 아님은 분명하다. 통상적으로 여기서 도면에서 설명 및 시사되는 본 발명의 실시예의 컴포넌트는 다양한 상이한 구성으로 배치 및 설계될 수 있다. 따라서, 하기의 도면에서 제공되는 본 발명의 실시예의 상세한 설명은 보호받고자 하는 본 발명의 실시예의 범위를 한정하지 않으며, 단지 본 발명의 선정된 실시예를 표시한다. 본 발명의 실시예에 기반하여, 본 기술분야의 통상의 기술자가 진보성 창출에 힘쓰지 않은 전제하에서 획득한 모든 다른 실시예는 전부 본 발명의 보호 범위에 속한다.
설명해야 할 것은, 본 발명의 실시예에서는 용어 “포함”을 사용하게 되는데, 이는 이후에 성명되는 특징의 존재를 지적하지만, 다른 특징의 증가를 배제하지 않는다.
본 발명의 실시예는 비전 타깃 추적에 대한 것으로서, 추적 과정에서 예측 산출의 복잡도를 효과적으로 감소하는 수단을 제공하고, 추적할 이미지 중의 검색 영역과 기준 프레임 이미지 중의 타깃 이미지 영역(추적할 객체를 포함) 사이의 이미지 유사성 특징맵에 기반하여, 상기 추적할 이미지에서 추적할 객체의 위치 정보(실제 실시 중 포지셔닝할 영역에서 추적할 객체의 위치 정보를 예측)를 예측하는 바, 즉 상기 추적할 이미지에서 상기 추적할 객체의 검출 박스를 예측한다. 상세한 실시 과정은 하기의 실시예에서 서술하도록 한다.
도 1에 도시된 바와 같이, 본 발명의 실시예에서는 타깃 추적 방법을 제공하는 바, 상기 방법은 추적할 객체에 대해 추적 포지셔닝을 수행하는 단말 기기에 응용되며, 상기 단말 기기는 사용자 기기(User Equipment, UE), 모바일 기기, 사용자 단말기, 단말기, 셀룰러 폰, 무선 전화, 개인 휴대 정보 단말기(Personal Digital Assistant, PDA), 핸드헬드 기기, 컴퓨팅 기기, 차량 탑재 기기, 웨어러블 기기 등일 수 있다. 일부 가능한 실시형태에서, 상기 타깃 추적 방법은 프로세서를 통해 메모리에 저장된 컴퓨터 판독 가능 명령을 호출하는 방식을 통해 구현될 수 있다. 상기 방법은 하기의 단계를 포함할 수 있다.
단계 S110에서 비디오 이미지를 획득한다.
여기서, 비디오 이미지는 추적할 객체에 대해 포지셔닝 및 추적을 수행해야 하는 이미지 시퀀스이다.
비디오 이미지는 기준 프레임 이미지 및 적어도 한 프레임의 추적할 이미지를 포함한다. 기준 프레임 이미지는 추적할 객체를 포함하는 이미지이고, 비디오 이미지 중의 제1 프레임 이미지일 수 있고, 물론 비디오 이미지 중의 다른 프레임 이미지일 수도 있다. 추적할 이미지는 추적할 객체를 검색 및 포지셔닝해야 하는 이미지이다. 기준 프레임 이미지 중 추적할 객체의 위치 및 크기는, 즉 검출 박스에서 이미 결정된 것으로, 추적할 이미지 중의 포지셔닝 영역 또는 검출 박스는 결정되지 않았으며, 산출 및 예측해야 하는 영역인 바, 포지셔닝할 영역, 또는 추적할 이미지 중의 검출 박스로 칭할 수도 있다.
단계 S120에서, 상기 비디오 이미지 중의 기준 프레임 이미지를 제외한 후의 추적할 이미지에 대해, 상기 추적할 이미지 중의 검색 영역과 상기 기준 프레임 이미지 중의 타깃 이미지 영역 사이의 이미지 유사성 특징맵을 생성하고; 여기서, 상기 타깃 이미지 영역 내에 추적할 객체가 포함된다.
이 단계를 수행하기 전에, 추적할 이미지에서 검색 영역을 추출하고, 기준 프레임 이미지에서 타깃 이미지 영역을 추출해야 한다. 타깃 이미지 영역에 추적할 객체의 검출 박스가 포함되고; 검색 영역에 포지셔닝이 완료되지 않은 포지셔닝할 영역이 포함된다. 포지셔닝 영역의 위치는 즉 추적할 객체의 위치이다.
검색 영역 및 타깃 이미지 영역을 추출하여 얻은 후, 검색 영역 및 타깃 이미지 영역에서 각각 이미지 특징을 추출한 후, 검색 영역에 대응되는 이미지 특징 및 타깃 이미지 영역의 이미지 특징에 기반하여, 검색 영역과 타깃 이미지 영역 사이의 이미지 유사성 특징을 결정하며, 즉 검색 영역과 타깃 이미지 영역 사이의 이미지 유사성 특징맵을 결정한다.
단계 S130에서, 상기 이미지 유사성 특징맵에 따라, 상기 검색 영역 중의 포지셔닝할 영역의 포지셔닝 위치 정보를 결정한다.
여기서, 이전 단계에서 생성된 이미지 유사성 특징맵에 기반하여, 검색 영역의 특징맵 중의 각 특징 픽셀점의 확률 값, 및 검색 영역 중 각 상기 특징 픽셀점에 대응되는 픽셀점과 상기 포지셔닝할 영역의 위치 관계 정보를 예측할 수 있다.
상기 하나의 특징 픽셀점의 확률 값은 상기 검색 영역 중 상기 특징 픽셀점에 대응되는 픽셀점이 상기 포지셔닝할 영역 내에 위치할 확률을 나타낸다.
상기 위치 관계 정보는 추적할 이미지 중의 검색 영역 중의 픽셀점과 상기 추적할 이미지 중의 포지셔닝할 영역의 중심점의 오프셋 정보일 수 있다. 예를 들면, 포지셔닝할 영역의 중심점을 좌표 중심점으로 하여 좌표계를 구축하면, 상기 위치 관계 정보는 대응되는 픽셀점이 상기 구축된 좌표계에서의 좌표 정보를 포함한다.
여기서, 상기 확률 값에 기반하여 검색 영역 중 확률이 가장 큰, 포지셔닝할 영역 내에 위치한 픽셀점을 결정할 수 있다. 그 후 상기 픽셀점의 위치 관계 정보에 기반하여, 비교적 정확하게 검색 영역 중의 포지셔닝할 영역의 포지셔닝 위치 정보를 결정할 수 있다.
상기 포지셔닝 위치 정보는 포지셔닝할 영역의 중심점의 좌표 등 정보를 포함할 수 있고, 실제 실시할 경우, 검색 영역 중 확률이 가장 큰, 포지셔닝할 영역 내에 위치하는 픽셀점의 좌표 정보, 및 상기 픽셀점과 포지셔닝할 영역의 중심점의 오프셋 정보에 기반하여, 포지셔닝할 영역의 중심점의 좌표 정보를 결정할 수 있다.
반드시 설명해야 할 것은, 이 단계에서는 검색 영역 중의 포지셔닝할 영역의 포지셔닝 위치 정보를 결정하였으나, 실제 응용에서, 검색 영역에는 포지셔닝할 영역이 존재할 수 있고, 포지셔닝할 영역이 존재하지 않을 수도 있다. 검색 영역에 포지셔닝할 영역이 존재하지 않으면, 포지셔닝할 영역의 포지셔닝 위치 정보를 결정할 수 없고, 즉 포지셔닝할 영역의 중심점의 좌표 등 정보를 결정할 수 없다.
단계 S140에서, 상기 검색 영역에서 상기 포지셔닝할 영역의 포지셔닝 위치 정보가 결정된 것에 응답하여, 결정된 포지셔닝할 영역의 포지셔닝 위치 정보에 따라, 상기 검색 영역을 포함한 추적할 이미지에서 상기 추적할 객체의 검출 박스를 결정한다.
검색 영역에 포지셔닝할 영역이 존재할 경우, 이 단계에서, 결정된 포지셔닝할 영역의 포지셔닝 위치 정보에 따라, 상기 검색 영역을 포함한 추적할 이미지에서 상기 추적할 객체의 검출 박스를 결정한다. 여기서, 추적할 이미지 중의 포지셔닝할 영역의 포지셔닝 위치 정보를 상기 추적할 이미지에서 예측한 검출 박스의 위치 정보로 사용할 수 있다.
상기 실시예는 추적할 이미지에서 검색 영역을 추출하고, 기준 프레임 이미지에서 타깃 이미지 영역을 추출한 후, 추출된 두 개 부분의 이미지 영역 사이의 이미지 유사성 특징맵에 기반하여, 추적할 이미지 중의 포지셔닝할 영역의 포지셔닝 위치 정보를 예측 또는 결정하며, 즉 상기 검색 영역을 포함한 추적할 이미지에서 추적할 객체의 검출 박스를 결정함으로써, 검출 박스 예측에 참여하는 픽셀점의 개수가 효과적으로 감소되도록 한다. 본 발명의 실시예는 예측 효율 및 즉시성을 향상할 뿐만 아니라, 예측 산출의 복잡도를 감소할 수 있으며, 추적할 객체의 검출 박스를 예측하기 위한 신경망의 네트워크 아키텍처가 간략화되어, 즉시성 및 네트워크 구조 용이성에 대한 요구가 비교적 높은 모바일 단말기에 더욱 적합하다.
일부 실시예에서, 상기 검색 영역에서 상기 포지셔닝할 영역의 포지셔닝 위치 정보를 결정하기 전에, 상기 타깃 추적 방법은 상기 포지셔닝할 영역의 사이즈 정보를 예측하는 단계를 더 포함한다. 여기서, 위에서 생성된 이미지 유사성 특징맵에 기반하여, 검색 영역 중 각 픽셀점에 대응되는 포지셔닝할 영역의 사이즈 정보를 예측할 수 있다. 실제 실시할 경우, 상기 사이즈 정보는 포지셔닝할 영역의 높이 값 및 폭 값을 포함할 수 있다.
검색 영역 중 각 픽셀점에 대응되는 포지셔닝할 영역의 사이즈 정보를 결정한 후, 상기 이미지 유사성 특징맵에 따라, 상기 검색 영역 중의 포지셔닝할 영역의 포지셔닝 위치 정보를 결정하는 과정은 하기의 단계를 통해 구현될 수 있다.
단계 1에서, 상기 이미지 유사성 특징맵에 따라, 상기 검색 영역의 특징맵 중의 각 특징 픽셀점의 확률 값을 예측하고, 하나의 특징 픽셀점의 확률 값은 상기 검색 영역 중 상기 특징 픽셀점에 대응되는 픽셀점이 상기 포지셔닝할 영역 내에 위치할 확률을 나타낸다.
단계 2에서, 상기 이미지 유사성 특징맵에 따라, 상기 검색 영역 중 각 상기 특징 픽셀점에 대응되는 픽셀점과 상기 포지셔닝할 영역의 위치 관계 정보를 예측한다.
단계 3에서, 예측한 확률 값에서 상기 확률 값이 최대인 특징 픽셀점에 대응되는 상기 검색 영역 중의 픽셀점을 선택하여 타깃 픽셀점으로 사용한다.
단계 4에서, 상기 타깃 픽셀점, 상기 타깃 픽셀점과 상기 포지셔닝할 영역의 위치 관계 정보, 및 상기 포지셔닝할 영역의 사이즈 정보에 기반하여, 상기 포지셔닝할 영역의 포지셔닝 위치 정보를 결정한다.
상기 단계는 검색 영역 중 포지셔닝할 영역에 위치할 가능성이 가장 높은 픽셀점 즉 타깃 픽셀점과 상기 포지셔닝할 영역의 위치 관계 정보, 및 검색 영역에서 상기 타깃 픽셀점의 좌표 정보를 이용하여, 포지셔닝할 영역의 중심점 좌표를 결정할 수 있다. 그 후, 상기 타깃 픽셀점에 대응되는 포지셔닝할 영역의 사이즈 정보에 결부하여, 결정된 검색 영역 중 포지셔닝할 영역의 정확도를 향상할 수 있는 바, 즉 추적할 객체를 추적 및 포지셔닝하는 정확도를 향상할 수 있다.
도 2에 도시된 바와 같이, 도 2중의 극대치 점은 즉 포지셔닝할 영역에 위치할 가능성이 가장 높은 픽셀점이고, 즉 확률 값이 가장 큰 타깃 픽셀점이다. 극대치 점의 좌표 (
Figure pct00001
,
Figure pct00002
), 극대치 점과 상기 포지셔닝할 영역의 위치 관계 정보 즉 오프셋 정보
Figure pct00003
에 기반하면, 포지셔닝할 영역의 중심점 (
Figure pct00004
,
Figure pct00005
)의 좌표를 결정할 수 있다. 여기서,
Figure pct00006
는 극대치 점과 포지셔닝할 영역의 중심점이 횡축 방향에서의 거리이고,
Figure pct00007
는 극대치 점과 포지셔닝할 영역의 중심점이 종축 방향에서의 거리이다. 포지셔닝할 영역을 포지셔닝하는 과정에서, 공식 (1) 내지 공식 (5)를 이용하여 구현될 수 있다.
Figure pct00008
(1);
Figure pct00009
(2);
Figure pct00010
(3);
Figure pct00011
(4);
Figure pct00012
=
Figure pct00013
(5);
여기서,
Figure pct00014
는 포지셔닝할 영역의 중심점의 횡좌표를 표시하고,
Figure pct00015
는 포지셔닝할 영역의 중심점의 종좌표를 표시하며,
Figure pct00016
은 극대치 점의 횡좌표를 표시하고,
Figure pct00017
은 극대치 점의 종좌표를 표시하며,
Figure pct00018
은 극대치 점과 포지셔닝할 영역의 중심점이 횡축 방향에서의 거리를 표시하고,
Figure pct00019
은 극대치 점과 포지셔닝할 영역의 중심점이 종축 방향에서의 거리를 표시하며,
Figure pct00020
는 포지셔닝할 영역을 포지셔닝 완료한 후의 폭 값을 표시하고,
Figure pct00021
는 포지셔닝할 영역을 포지셔닝 완료한 후의 높이 값을 표시하며,
Figure pct00022
은 예측하여 얻은 포지셔닝할 영역의 폭 값을 표시하고,
Figure pct00023
은 예측하여 얻은 포지셔닝할 영역의 높이 값을 표시하며,
Figure pct00024
는 포지셔닝할 영역을 포지셔닝 완료한 후의 위치 정보를 표시한다.
상기 실시예에서, 검색 영역과 타깃 이미지 영역 사이의 이미지 유사성 특징맵을 얻은 후, 상기 이미지 유사성 특징맵에 기반하여 검색 영역에서 포지셔닝할 영역 내에 위치할 확률 값이 가장 큰 타깃 픽셀점을 스크리닝할 수 있고, 대응되는 확률 값이 가장 큰 타깃 픽셀점이 검색 영역에서의 좌표 정보, 상기 픽셀점이 포지셔닝할 영역에 대한 위치 관계 정보 및 상기 픽셀점에 대응되는 포지셔닝할 영역의 사이즈 정보에 기반하여, 포지셔닝할 영역의 포지셔닝 위치 정보를 결정하여, 결정된 포지셔닝 위치 정보의 정확도를 향상할 수 있다.
일부 실시예에서, 도 3에 도시된 바와 같이, 하기의 단계에 따라 상기 기준 프레임 이미지에서 상기 타깃 이미지 영역을 추출할 수 있다.
단계 S310에서, 상기 기준 프레임 이미지에서 상기 추적할 객체의 검출 박스를 결정한다.
상기 검출 박스는 이미 포지셔닝 완료된, 추적할 객체를 포함하는 이미지 영역이다. 실시할 경우, 상기 검출 박스는 직사각형의 이미지 박스
Figure pct00025
=
Figure pct00026
일 수 있고, 여기서,
Figure pct00027
은 검출 박스의 위치 정보를 표시하며,
Figure pct00028
는 검출 박스의 중심점의 횡좌표를 표시하고,
Figure pct00029
는 검출 박스의 중심점의 종좌표를 표시하며,
Figure pct00030
는 검출 박스의 폭 값을 표시하고,
Figure pct00031
는 검출 박스의 높이 값을 표시한다.
단계 S320에서, 상기 기준 프레임 이미지 중의 상기 검출 박스의 사이즈 정보에 기반하여, 상기 기준 프레임 이미지 중의 상기 검출 박스에 대응되는 제1 연신 사이즈 정보를 결정한다.
여기서 제1 연신 사이즈 정보에 기반하여 검출 박스에 대해 연신 처리를 수행할 수 있으며, 하기의 공식 (6)을 이용하여 산출할 수 있는 바, 즉 검출 박스의 높이와 검출 박스의 폭 사이의 평균 값을 제1 연신 사이즈 정보로 한다.
Figure pct00032
(6);
여기서,
Figure pct00033
는 검출 박스가 검출 박스의 높이에서 연신되어야 하는 길이를 표시하고,
Figure pct00034
는 검출 박스가 검출 박스의 폭에서 연신되어야 하는 길이를 표시하며;
Figure pct00035
는 검출 박스의 폭 값을 표시하고,
Figure pct00036
는 검출 박스의 높이 값을 표시한다.
검출 박스를 연신할 경우, 검출 박스의 높이 방향의 두 변을 위에서 산출하여 얻은 수치의 절반으로 각각 연신하고, 검출 박스의 폭 방향의 두 변을 위에서 산출하여 얻은 수치의 절반으로 각각 연신할 수 있다.
단계 S330에서, 상기 제1 연신 사이즈 정보에 기반하여, 상기 기준 프레임 이미지 중의 상기 검출 박스를 시작 위치로 하여 주변을 향해 연신하여, 상기 타깃 이미지 영역을 얻는다.
여기서, 제1 연신 사이즈 정보에 기반하여 검출 박스를 연신하여, 상기 이미지 영역을 직접 얻을 수 있다. 물론, 검출 박스가 연신된 후, 연신된 후의 이미지를 더 처리하여, 상기 이미지 영역을 얻을 수도 있거나, 제1 연신 사이즈 정보에 기반하여 검출 박스를 연신하지 않고, 단지 제1 연신 사이즈 정보에만 기반하여 타깃 이미지 영역의 사이즈 정보를 결정한 후, 결정된 타깃 이미지 영역의 사이즈 정보에 기반하여 검출 박스를 연신하여 상기 이미지 영역을 직접 얻을 수 있다.
기준 프레임 이미지에서 추적할 객체의 크기 및 위치에 기반하여, 즉 기준 프레임 이미지에서 추적할 객체의 검출 박스의 사이즈 정보에 기반하여, 검출 박스를 연신하여, 획득된 타깃 이미지 영역은 추적할 객체를 포함할 뿐만 아니라, 추적할 객체 주변의 영역을 더 포함함으로써, 비교적 많은 이미지 내용을 포함하는 타깃 이미지 영역을 결정할 수 있다.
일부 실시예에서, 상기 제1 연신 사이즈 정보에 기반하여, 상기 기준 프레임 이미지 중의 상기 검출 박스를 시작 위치로 하여 주변을 향해 연신하여, 상기 타깃 이미지 영역을 얻는 상기 단계는 하기의 단계를 통해 구현될 수 있다.
상기 검출 박스의 사이즈 정보 및 상기 제1 연신 사이즈 정보에 기반하여, 타깃 이미지 영역의 사이즈 정보를 결정할 수 있고; 상기 검출 박스의 중심점 및 타깃 이미지 영역의 사이즈 정보에 기반하여, 상기 검출 박스를 연신한 후의 상기 타깃 이미지 영역을 결정할 수 있다.
실시할 경우, 하기의 공식 (7)을 이용하여 타깃 이미지 영역의 사이즈 정보를 결정할 수 있는 바, 즉 검출 박스의 폭
Figure pct00037
을 고정 사이즈
Figure pct00038
로 각각 연신하고, 검출 박스의 높이
Figure pct00039
를 고정 사이즈
Figure pct00040
로 연신한 후, 연신된 후의 폭과 높이의 제곱근을 산출하여 획득한 결과를 타깃 이미지 영역의 폭(또는 높이)로 사용할 수 있으며, 다시 말해, 타깃 이미지 영역은 높이와 폭이 동일한 정사각형 영역이다.
Figure pct00041
(7);
여기서,
Figure pct00042
는 타깃 이미지 영역의 폭 값을 표시하고,
Figure pct00043
는 타깃 이미지 영역의 높이 값을 표시하며;
Figure pct00044
는 검출 박스가 검출 박스의 높이에서 연신되어야 하는 길이를 표시하고,
Figure pct00045
는 검출 박스가 검출 박스의 폭에서 연신되어야 하는 길이를 표시하며;
Figure pct00046
는 검출 박스의 폭 값을 표시하고,
Figure pct00047
는 검출 박스의 높이 값을 표시한다.
타깃 이미지 영역의 사이즈 정보를 결정한 후, 검출 박스의 중심점을 중심점으로 하고, 결정된 사이즈 정보에 따라, 직접 검출 박스를 연신하여, 상기 이미지 영역을 얻을 수 있거나; 검출 박스의 중심점을 중심점으로 하여, 결정된 사이즈 정보에 따라, 검출 박스에서 제1 연신 사이즈 정보 연신된 후의 이미지에서 타깃 이미지 영역을 절취한다.
상기 실시예는 검출 박스의 사이즈 정보 및 상기 제1 연신 사이즈 정보에 기반하여, 검출 박스를 연신하는 기초상에서, 연신된 이미지에서 하나의 정사각형의 타깃 이미지 영역을 절취함으로써, 획득한 타깃 이미지 영역은 추적할 객체를 제외한 지나치게 많은 다른 이미지 영역을 포함하지 않는다.
일부 실시예에서, 도 4에 도시된 바와 같이, 하기의 단계에 따라 추적할 이미지에서 검색 영역을 추출할 수 있다.
단계 S410에서, 상기 비디오 이미지 중 현재 프레임의 추적할 이미지의 바로 전의 프레임의 추적할 이미지에서, 상기 추적할 객체의 검출 박스를 획득한다.
여기서, 현재 프레임의 추적할 이미지의 바로 전의 프레임의 추적할 이미지 중의 검출 박스는 이미 포지셔닝 완료한 추적할 객체가 위치한 이미지 영역이다.
단계 S420에서, 상기 추적할 객체의 검출 박스의 사이즈 정보에 기반하여, 상기 추적할 객체의 검출 박스에 대응되는 제2 연신 사이즈 정보를 결정한다.
여기서, 검출 박스의 사이즈 정보에 기반하여 제2 연신 사이즈 정보의 알고리즘을 결정하는 것과 상기 실시예에서 제1 연신 사이즈 정보를 결정하는 단계는 동일하기에, 여기서 더 서술하지 않는다.
단계 S430에서, 상기 제2 연신 사이즈 정보 및 상기 추적할 객체의 검출 박스의 사이즈 정보에 기반하여, 현재 프레임의 추적할 이미지 중의 검색 영역의 사이즈 정보를 결정한다.
여기서, 하기의 단계를 통해 검색 영역의 사이즈 정보를 결정할 수 있다.
상기 제2 연신 사이즈 정보 및 상기 바로 전의 프레임의 추적할 이미지 중의 검출 박스의 사이즈 정보에 기반하여, 연신할 검색 영역의 사이즈 정보를 결정하고; 상기 연신할 검색 영역의 사이즈 정보, 상기 검색 영역에 대응되는 제1 기설정 사이즈, 및 상기 타깃 이미지 영역에 대응되는 제2 기설정 사이즈에 기반하여, 상기 검색 영역의 사이즈 정보를 결정하며; 여기서, 상기 검색 영역은 상기 연신할 검색 영역을 연신한 후 획득된 것이다.
상기 연신할 검색 영역의 사이즈 정보를 결정하는 산출 방법과 상기 실시예 중의 상기 검출 박스의 사이즈 정보 및 상기 제1 연신 사이즈 정보에 기반하여, 타깃 이미지 영역의 사이즈 정보를 결정하는 산출 방법은 동일하기에, 여기서 더 서술하지 않는다.
상기 연신할 검색 영역의 사이즈 정보, 상기 검색 영역에 대응되는 제1 기설정 사이즈, 및 상기 타깃 이미지 영역에 대응되는 제2 기설정 사이즈에 기반하여, 상기 연신할 검색 영역을 연신한 후의 상기 검색 영역의 사이즈 정보를 결정하는 것은, 하기의 공식 (8) 및 공식 (9)를 이용하여 산출할 수 있다.
Figure pct00048
(8);
Figure pct00049
(9);
여기서,
Figure pct00050
는 검색 영역의 사이즈 정보를 표시하고,
Figure pct00051
는 연신할 검색 영역의 사이즈 정보를 표시하며,
Figure pct00052
은 상기 연신할 검색 영역을 연신해야 하는 사이즈를 표시하고,
Figure pct00053
는 검색 영역에 대응되는 제1 기설정 사이즈를 표시하며,
Figure pct00054
는 타깃 이미지 영역에 대응되는 제2 기설정 사이즈를 표시한다. 여기서 공식 (7)에 기반하면 알 수 있다시피, 검색 영역 및 타깃 이미지 영역은 높이와 폭이 모두 동일한 정사각형 영역이므로, 여기의 사이즈는 대응되는 이미지 영역의 높이와 폭에 대응되는 픽셀 개수이다.
본 단계에서, 연신할 검색 영역의 사이즈 정보, 상기 검색 영역에 대응되는 제1 기설정 사이즈, 및 상기 타깃 이미지 영역에 대응되는 제2 기설정 사이즈에 기반하여, 검색 영역을 더 연신함으로써, 검색 영역을 더 확대할 수 있다. 비교적 큰 검색 영역은 추적할 객체에 대해 추적 포지셔닝하는 성공률을 향상할 수 있다.
단계 S440에서, 상기 추적할 객체의 검출 박스의 중심점을 현재 프레임의 추적할 이미지 중의 검색 영역의 중심으로 하고, 현재 프레임의 추적할 이미지 중의 검색 영역의 사이즈 정보에 따라 상기 검색 영역을 결정한다.
실시할 경우, 상기 바로 전의 프레임의 추적할 이미지 중의 검출 박스의 중심점의 좌표를 현재 프레임의 추적할 이미지 중의 초기 포지셔닝 영역의 중심점으로 사용할 수 있고, 바로 전의 프레임의 추적할 이미지 중의 검출 박스의 사이즈 정보를 현재 프레임의 추적할 이미지 중의 초기 포지셔닝 영역의 사이즈 정보로 사용할 수 있으며, 현재 프레임의 추적할 이미지 중의 초기 포지셔닝 영역을 결정할 수 있다. 그 후, 제2 연신 사이즈 정보에 기반하여 초기 포지셔닝 영역에 대해 연신 처리하고, 다시 상기 연신할 검색 영역의 사이즈 정보에 따라, 연신된 후의 이미지에서 연신할 검색 영역을 절취한다. 그 후, 상기 연신할 검색 영역의 연신된 후의 사이즈 정보에 기반하여, 연신할 검색 영역을 연신하여 검색 영역을 획득한다.
물론, 상기 바로 전의 프레임의 추적할 이미지 중의 검출 박스의 중심점을, 현재 프레임의 추적할 이미지 중 검색 영역의 중심점으로 사용할 수도 있고, 산출하여 얻은 상기 검색 영역의 사이즈 정보에 따라, 현재 프레임의 추적할 이미지에서 검색 영역을 직접 캡쳐할 수 있다.
바로 전의 프레임의 추적할 이미지에서 결정된 검출 박스의 사이즈 정보에 기반하여, 제2 연신 사이즈 정보를 결정하고, 제2 연신 사이즈 정보에 기반하여 현재 프레임의 추적할 이미지에 대해 비교적 큰 검색 영역을 결정할 수 있고, 비교적 큰 검색 영역은 결정된 포지셔닝할 영역의 포지셔닝 위치 정보의 정확도를 향상할 수 있는 바, 즉 추적할 객체에 대해 추적 포지셔닝하는 성공률을 향상할 수 있다.
일부 실시예에서, 상기 이미지 유사성 특징맵을 생성하는 단계 전에, 상기 타깃 추적 방법은 하기의 단계를 더 포함할 수 있다.
상기 검색 영역을 제1 기설정 사이즈로 스케일링하고, 상기 타깃 이미지 영역을 제2 기설정 사이즈로 스케일링한다.
여기서, 검색 영역 및 타깃 이미지 영역을 대응되는 기설정 사이즈로 설정하고, 이미지 유사도 특징맵에서 생성되는 픽셀점의 개수를 제어함으로써, 산출의 복잡성을 제어할 수 있다.
일부 실시예에서, 도 5에 도시된 바와 같이, 상기 추적할 이미지 중의 검색 영역과 상기 기준 프레임 이미지 중의 타깃 이미지 영역 사이의 이미지 유사성 특징맵을 생성하는 상기 단계는, 하기의 단계를 통해 구현될 수 있다.
단계 S510에서, 상기 검색 영역 중의 제1 이미지 특징맵, 및 상기 타깃 이미지 영역 중의 제2 이미지 특징맵을 생성하고; 상기 제2 이미지 특징맵의 사이즈는 상기 제1 이미지 특징맵의 사이즈보다 작다.
여기서, 딥 콘볼루션 신경망을 이용하여 검색 영역 중의 이미지 특징 및 타깃 이미지 영역 중의 이미지 특징을 추출하여, 상기 제1 이미지 특징맵 및 제2 이미지 특징맵을 각각 얻을 수 있다.
도 6에서, 제1 이미지 특징맵(61)의 폭 값 및 높이 값은 모두 8개의 픽셀점이고, 제2 이미지 특징맵(62)의 폭 값 및 높이 값은 모두 4개의 픽셀점이다.
단계 S520에서, 상기 제2 이미지 특징맵과 상기 제1 이미지 특징맵 중의 각 서브 이미지 특징맵 사이의 관련성 특징을 결정하고; 상기 서브 이미지 특징맵과 상기 제2 이미지 특징맵의 사이즈는 동일하다.
도 6에 도시된 바와 같이, 제2 이미지 특징맵(62)을 좌측에서 우측으로, 위에서 아래로의 순서에 따라 제1 이미지 특징맵(61)에서 이동할 수 있고, 제1 이미지 특징맵(61)에서 제2 이미지 특징맵(62)의 각각의 정투영 영역을 각각의 서브 이미지 특징맵으로 사용할 수 있다.
실시할 경우, 상관 관계(correlation) 산출을 이용하여, 제2 이미지 특징맵과 서브 이미지 특징맵 사이의 관련성 특징을 결정할 수 있다.
단계 S530에서, 결정된 복수의 관련성 특징에 기반하여, 상기 이미지 유사성 특징맵을 생성한다.
도 6에 도시된 바와 같이, 제2 이미지 특징맵과 각각의 서브 이미지 특징맵 사이의 관련성 특징에 기반하여, 생성된 이미지 유사성 특징맵(63)의 폭 값 및 높이 값은 모두 5개의 픽셀점이다.
상기 이미지 유사성 특징맵에서, 각 픽셀점에 대응되는 관련성 특징은 제1 이미지 특징맵 중 하나의 서브 영역(즉 서브 이미지 특징맵)과 제2 이미지 특징맵 사이의 이미지 유사성의 정도를 나타낼 수 있다. 상기 이미지 유사성의 정도에 기반하여 검색 영역에서 포지셔닝할 영역 내에 위치할 확률이 가장 큰 픽셀점을 정확하게 스크리닝하여, 이어서 상기 확률 값이 가장 큰 픽셀점의 정보에 기반하여 결정된 포지셔닝할 영역의 포지셔닝 위치 정보의 정확도를 효과적으로 향상할 수 있다.
상기 실시예의 타깃 추적 방법에서, 획득된 비디오 이미지를 처리하여, 각 하나의 프레임의 추적할 이미지 중의 포지셔닝할 영역의 포지셔닝 위치 정보를 얻고, 상기 검색 영역을 포함한 추적할 이미지에서 상기 추적할 객체의 검출 박스를 결정하는 과정은, 추적 포지셔닝 신경망을 이용하여 완성할 수 있고, 상기 추적 포지셔닝 신경망은 타깃 객체의 검출 박스가 라벨링되어 있는 샘플 이미지에 의해 트레이닝 획득된다.
상기 타깃 추적 방법에서는 추적 포지셔닝 신경망을 이용하여, 포지셔닝할 영역의 포지셔닝 위치 정보를 결정하였는 바, 즉 상기 검색 영역을 포함한 추적할 이미지에서 상기 추적할 객체의 검출 박스를 결정한다. 산출 방법을 간략화하였기에, 추적 포지셔닝 신경망의 구조가 간략화되어, 이동 단말기에 더 용이하게 배치된다.
본 발명의 실시예에서는 상기 추적 포지셔닝 신경망의 트레이닝 방법을 더 제공하였는 바, 도 7에 도시된 바와 같이, 하기의 단계를 포함한다.
단계 S710에서, 기준 프레임 샘플 이미지 및 추적할 샘플 이미지를 포함하는 샘플 이미지를 획득한다.
샘플 이미지는 기준 프레임 샘플 이미지 및 적어도 한 프레임의 추적할 샘플 이미지를 포함한다. 기준 프레임 샘플 이미지는 추적할 객체, 포지셔닝 위치 정보가 이미 결정된 검출 박스가 포함된다. 추적할 샘플 이미지 중의 포지셔닝할 영역의 포지셔닝 위치 정보는 결정되지 않았으며, 추적 포지셔닝 신경망으로 예측 또는 결정해야 한다.
단계 S720에서, 상기 샘플 이미지를 트레이닝할 추적 포지셔닝 신경망에 입력하고, 상기 트레이닝할 추적 포지셔닝 신경망을 거쳐 입력된 샘플 이미지를 처리하여, 상기 추적할 샘플 이미지에서 상기 타깃 객체의 검출 박스를 예측한다.
단계 S730에서, 상기 추적할 샘플 이미지에 라벨링된 검출 박스, 및 상기 추적할 샘플 이미지에서 예측한 검출 박스에 기반하여, 상기 트레이닝할 추적 포지셔닝 신경망의 네트워크 파라미터를 조절한다.
실시할 경우, 상기 추적할 샘플 이미지 중의 포지셔닝할 영역의 포지셔닝 위치 정보를 상기 추적할 샘플 이미지에서 예측한 검출 박스의 위치 정보로 사용한다.
상기 추적할 샘플 이미지에 라벨링된 검출 박스, 및 상기 추적할 샘플 이미지에서 예측한 검출 박스에 기반하여, 상기 트레이닝할 추적 포지셔닝 신경망의 네트워크 파라미터를 조절하는 상기 단계는, 하기의 단계를 통해 구현될 수 있다.
상기 예측한 검출 박스의 사이즈 정보, 상기 추적할 샘플 이미지 중 검색 영역에서 각 픽셀점이 상기 예측한 검출 박스 내에 위치할 예측 확률 값, 상기 추적할 샘플 이미지 중 검색 영역에서 각 픽셀점과 상기 예측한 검출 박스의 예측 위치 관계 정보, 상기 라벨링된 검출 박스의 표준 사이즈 정보, 상기 추적할 샘플 이미지 중 표준 검색 영역에서 각 픽셀점이 라벨링된 검출 박스에 위치하는지 여부의 정보, 상기 표준 검색 영역 중 각 픽셀점과 상기 라벨링된 검출 박스의 표준 위치 관계 정보에 기반하여, 상기 트레이닝할 추적 포지셔닝 신경망의 네트워크 파라미터를 조절한다.
여기서, 상기 표준 사이즈 정보, 상기 표준 검색 영역 중 각 픽셀점이 라벨링된 검출 박스에 위치하는지 여부의 정보, 상기 표준 검색 영역 중 각 픽셀점과 상기 라벨링된 검출 박스의 표준 위치 관계 정보는 모두 상기 라벨링된 검출 박스에 따라 결정될 수 있다.
상기 예측 위치 관계 정보는 대응되는 픽셀점과 예측한 검출 박스의 중심점의 오프셋 정보이고, 대응되는 픽셀점과 상기 중심점의 거리가 횡축 방향에서의 분량, 및 대응되는 픽셀점과 상기 중심점의 거리가 횡축 방향에서의 분량을 포함할 수 있다.
상기 픽셀점이 라벨링된 검출 박스에 위치하는지 여부의 정보는, 객체의 픽셀점이 라벨링된 검출 박스 내에 위치하는 표준 값
Figure pct00055
을 이용하여 결정할 수 있다.
Figure pct00056
(10);
여기서,
Figure pct00057
는 추적할 샘플 이미지 중의 검출 박스를 표시하고,
Figure pct00058
는검색 영역 중의 좌측으로부터 우측으로, 위로부터 아래로 제i번째 위치의 픽셀점이 검출 박스
Figure pct00059
내에 위치하는 표준 값을 표시한다. 표준 값
Figure pct00060
이 0인 것은 픽셀점이 검출 박스
Figure pct00061
밖에 위치하는 것을 표시하고, 표준 값
Figure pct00062
이 1인 것은 픽셀점이 검출 박스
Figure pct00063
내에 위치하는 것을 표시한다.
실시할 경우, 크로스 엔트로피 손실 함수를 사용하여
Figure pct00064
및 예측 확률 값을 제약하여, 하나의 서브 손실 함수
Figure pct00065
를 구축할 수 있는 바, 공식 (11)과 같다.
Figure pct00066
(11);
여기서,
Figure pct00067
는 라벨링된 검출 박스 내에 속하는 픽셀점의 집합을 표시하고,
Figure pct00068
은 라벨링된 검출 박스 밖에 속하는 픽셀점의 집합을 표시하며,
Figure pct00069
은 픽셀점 i가 예측한 검출 박스 내에 속하는 예측 확률 값을 표시하고,
Figure pct00070
은 픽셀점 i가 예측한 검출 박스 밖에 속하는 예측 확률 값을 표시한다.
실시할 경우, 평활화된 후의 L1정상수 손실 함수(
Figure pct00071
)를 사용하여 표준 위치 관계 정보와 예측 위치 관계 정보 사이의 서브 손실 함수
Figure pct00072
를 결정할 수 있다.
Figure pct00073
(12);
여기서,
Figure pct00074
은 예측 위치 관계 정보를 표시하고,
Figure pct00075
은 표준 위치 관계 정보를 표시한다.
표준 위치 관계 정보
Figure pct00076
은 픽셀점과 라벨링된 검출 박스의 중심점의 진실한 오프셋 정보는, 픽셀점과 라벨링된 검출 박스의 중심점과의 거리가 횡축 방향에서의 분량
Figure pct00077
및 픽셀점과 라벨링된 검출 박스의 중심점과의 거리가 횡축 방향에서의 분량
Figure pct00078
을 포함할 수 있다.
상기 공식 (11)로 생성된 서브 손실 함수 및 상기 공식 (12)로 생성된 서브 손실 함수에 기반하여, 하나의 종합적인 손실 함수를 구축할 수 있으며, 이하 공식 (13)과 같다.
Figure pct00079
(13);
여기서,
Figure pct00080
은 하나의 기설정된 가중치 계수이다.
또한, 상기 기설정된 검출 박스 사이즈 정보에 결부하여, 상기 트레이닝할 추적 포지셔닝 신경망 중의 네트워크 파라미터를 조절할 수 있고, 상기의 공식 (11), 공식 (12)를 이용하여 서브 손실 함수
Figure pct00081
및 서브 손실 함수
Figure pct00082
를 구축할 수 있다.
하기의 공식 (14)를 이용하여 예측한 검출 박스 사이즈 정보에 관련된 서브 손실 함수
Figure pct00083
를 구축할 수 있다.
Figure pct00084
(14);
여기서,
Figure pct00085
는 표준 사이즈 정보 중의 폭 값을 표시하고,
Figure pct00086
는 표준 사이즈 정보 중의 높이 값을 표시하며,
Figure pct00087
는 검출 박스의 예측 사이즈 정보 중의 폭 값을 표시하고,
Figure pct00088
는 검출 박스의 예측 사이즈 정보 중의 높이 값을 표시한다.
상기
Figure pct00089
3개의 서브 손실 함수에 기반하여 하나의 종합적인 손실 함수
Figure pct00090
를 구축할 수 있는 바, 하기의 공식 (15)와 같다.
Figure pct00091
(15);
여기서,
Figure pct00092
은 기설정된 가중치 계수이고,
Figure pct00093
는 다른 한 기설정된 가중치 계수이다.
상기 실시예는 추적 포지셔닝 신경망을 트레이닝하는 과정에서, 예측하여 획득한 검출 박스의 사이즈 정보 및 추적할 샘플 이미지 중 검출 박스의 표준 사이즈 정보에 결부하여, 손실 함수를 구성하며, 상기 손실 함수를 이용하여 트레이닝하여 획득한 추적 포지셔닝 신경망의 산출 정확도를 향상할 수 있다. 예측하여 획득한 확률 값, 위치 관계 정보, 예측한 검출 박스의 사이즈 정보와 샘플 이미지의 대응되는 표준 값을 이용하여 손실 함수를 구축함으로써 추적 포지셔닝 신경망을 트레이닝하고, 트레이닝된 타깃은 구축된 손실 함수의 값이 제일 작도록 함으로써, 트레이닝하여 획득한 추적 포지셔닝 신경망 산출의 정확도의 향상에 유리하다.
타깃 추적 방법은 관측 모델의 타입에 따라 생성식 방법 및 판별식 방법으로 나뉠 수 있다. 근래에 주요하게 딥러닝 및 관련 필터링을 위주로 하는 판별식 추적 방법이 주도적인 위치를 차지하였고, 타깃 추적 기술은 획기전인 발전을 이루었다. 특히는 딥러닝으로 얻은 이미지 특징을 기초로 하는 각 타입의 판별식 방법은, 추적 성능에서 선두적인 수준에 도달하였다. 딥러닝 방법은 대규모 이미지 데이터에서 단대단 러닝을 이용하여 트레이닝하여 획득한 고효율 특징의 포현 능력은 타깃 추적 알고리즘이 더욱 정밀하고 신속하도록 한다.
딥러닝 방법의 크로스 도메인 추적 방법(MD Net)에 기반하여, 대량의 오프라인 학습 및 온라인 업데이트 전략을 통해, 타깃 및 비 타깃에 대한 정밀도 분류기를 학습하여 얻으며, 후속적인 프레임 내의 객체에 대해 분류 판별 및 박스 조절을 수행하여, 최종적으로 추적 결과를 얻는다. 딥러닝에 기반한 이러한 완전 추적 방법은, 추적의 정밀도에서 대폭 향상되지만 즉시성이 비교적 떨어지는 바, 예를 들면 초당 전송 프레임 수(Frames Per Second, FPS)는 1이다. 같은 해에 제기된 GOTURN 방법에서, 딥 콘볼루션 신경망은 서로 인접한 프레임 이미지의 특징을 추출하고, 타깃 특징이 바로 전의 프레임에 비교한 위치 변화를 학습하여 후속적인 프레임의 타깃 포지셔닝 동작을 완성한다. 상기 방법은 일정한 정밀도를 유지하는 동시에 예컨대 100FPS와 같은 비교적 높은 즉시 성능을 획득하였다. 딥러닝에 기반한 추적 방법은 비록 속도와 정밀도에서 모두 비교적 바람직한 표현을 구비하지만, 예컨대 VGG(Visual Geometry Group, 컴퓨터 비전 그룹), Res Net 등 네트워크와 같은 더욱 딥한 네트워크 구조에 수반되는 산출 복잡성은 정밀도가 더 높은 추적 알고리즘이 실제 생산에 응용되기 어렵게 한다.
임의의 타깃 객체를 지정한 추적에 대해, 현재 존재하는 방법은 주요하게 Frame By Frame 검출, 관련 필터링 및 딥러닝에 기반한 실시간 추적 알고리즘 등을 포함한다. 이러한 방법은 즉시성, 정밀도 및 구조 복잡성에서 모두 일정한 부족점이 있으며, 매우 바람직하게 복잡한 추적 장면과 실제 모바일 단말기의 응용에 적응할 수 없다. 예컨대 MD Net 등과 같은 검출 분류 방식에 기반한 추적 방법은 온라인 학습에 필요하며, 실시간 요구에 도달하기 매우 어렵다. 관련 필터링 및 검출에 기반한 추적 알고리즘은 위치를 예측한 후, 이전의 프레임 타깃 박스 형태를 미세하게 조절하여, 생성된 박스가 정확하지 않으며, 영역 후보 박스, 예컨대 RPN(Region Proposal Network, 영역 생성 네트워크)과 같은 방법에 기반한 박스는 중복이 비교적 많고 산출이 복잡하다.
본 발명의 실시예는 비교적 높은 정밀도를 구비하는 동시에 알고리즘의 즉시성 측면에서 최적화하는 타깃 추적 방법을 제공하기를 희망한다.
도 8a는 본 발명의 실시예에 따라 제공되는 타깃 추적 방법의 흐름 모식도이고, 도 8에 도시된 바와 같이, 상기 방법은 하기의 단계를 포함한다.
단계 S810에서, 타깃 이미지 영역 및 검색 영역에 대해 특징 추출을 수행한다.
여기서, 본 발명의 실시예에서 추적된 타깃 이미지 영역은 초기 프레임(제1 프레임)에서 타깃 박스의 형식으로 제공된다. 검색 영역은 이전 프레임 타깃의 추적 위치 및 크기에 따라, 일정한 공간 영역으로 확장된다. 절취된 타깃 영역 및 검색 영역은 고정된 상이한 사이즈로 스케일링을 거친 후, 동일한 사전 트레이닝된 딥 콘볼루션 신경망을 통해, 양자의 각자의 이미지 특징을 추출하여 얻는다. 즉 타깃이 위치한 이미지 및 추적할 이미지를 입력으로 하고, 콘볼루션 신경망을 거쳐, 타깃 이미지 영역의 특징 및 검색 영역의 특징을 출력한다. 아래 이러한 동작을 설명하도록 한다.
우선, 타깃 이미지 영역을 획득한다. 본 발명의 실시예에서 추적한 객체는 비디오 데이터이고, 일반적으로 추적된 제1 프레임(초기 프레임)에서 직사각형 박스의 방식으로 타깃 영역 중심의 위치 정보를 제공하는 바, 예컨대
Figure pct00094
=
Figure pct00095
이며, 상기 타깃 영역 중심이 위치한 위치를 중심 위치로 사용하며, 타깃 길이 및 폭에 따라 충진
Figure pct00096
한 후 하나의 면적이 불변하는 정사각형 영역
Figure pct00097
을 절취하며, 타깃 이미지 영역을 얻는다.
그 다음, 검색 영역을 획득한다. 바로 전의 프레임 추적 결과
Figure pct00098
(초기 프레임은 제공된 타깃 박스
Figure pct00099
)에 따라, 현재 프레임의
Figure pct00100
에서
Figure pct00101
의 위치를 중심으로 하고, 타깃 이미지 영역과 동일한 처리를 거쳐 정사각형 영역
Figure pct00102
을 얻는다. 타깃 객체를 최대한 포함하도록 하기 위해, 상기 정사각형 영역의 기초상에서 하나의 더욱 큰 내용 정보 영역을 추가하여, 검색 영역을 얻는다.
그 다음, 획득한 이미지를 스케일링하여 입력 이미지를 얻는다. 본 발명의 실시예에서 긴 변이
Figure pct00103
픽셀인 이미지를 검색 영역의 입력으로 사용하고,
Figure pct00104
인 이미지를 타깃 이미지 영역의 입력으로 한다. 검색 영역
Figure pct00105
을 고정된 크기
Figure pct00106
로 스케일링하고 타깃 이미지 영역
Figure pct00107
을 고정된 크기
Figure pct00108
로 스케일링한다.
최종적으로, 특징을 추출한다. 스케일링한 후의 입력 이미지를 딥 콘볼루션 신경망을 사용하여 특징 추출하여, 타깃 특징
Figure pct00109
및 검색 영역의 특징
Figure pct00110
을 얻는다.
단계 S820에서, 검색 영역의 유사도 특징을 산출한다.
타깃 특징
Figure pct00111
및 검색 영역 특징
Figure pct00112
을 입력하고, 도 6에 도시된 바와 같이,
Figure pct00113
를 슬라이딩 윈도우의 방식으로
Figure pct00114
에서 이동시키고, 검색 서브 영역(타깃 특징 크기와 동일한 서브 영역) 및 타깃 특징에 대해 관련 산출을 수행한다. 최종적으로 검색 영역의 유사도 특징
Figure pct00115
을 얻는다.
단계 S830에서, 타깃을 포지셔닝한다.
상기 과정에서 유사도 스케일 특징
Figure pct00116
을 입력으로 하고, 최종적으로 타깃점 분류 결과
Figure pct00117
, 오프셋 회귀 결과
Figure pct00118
, 및 타깃 박스 길이 폭 결과
Figure pct00119
를 출력한다.
포지셔닝 타깃의 흐름은 도 8b에 도시된 바와 같이, 유사도 스케일 특징(81)을 타깃점 분류 지선(82)에 보내고 타깃점 분류 결과(83)를 얻고, 타깃점 분류 결과(83)는 각 점에 대응되는 검색 영역이 검색할 타깃 영역에 속하는지 여부를 예측한다. 유사도 스케일 특징(81)을 회귀 지선(84)에 보내 타깃점의 오프셋 회귀 결과(85) 및 타깃 박스의 길이 폭 회귀 결과(86)를 얻는다. 오프셋 회귀 결과(85)는 타깃점으로부터 타깃 중심점까지의 오프셋을 예측한다. 길이 폭 회귀 결과(86)는 타깃 박스의 길이 폭을 예측한다. 최종적으로 유사도가 가장 높은 타깃점 위치 정보 및 오프셋 정보에 결부하여 타깃 중심점 위치는 얻고, 다시 타깃 박스의 길이 폭 예측 결과에 따라 상기 위치의 최종적인 타깃 박스 결과를 예측한다. 아래 알고리즘 트레이닝 및 포지셔닝 두 개의 과정에 대해 각각 설명한다.
알고리즘 트레이닝 과정은 아래와 같다. 알고리즘은 역전파의 방식을 사용하여, 특징 추출 네트워크, 및 후속적인 분류 및 회귀 지선을 단대단으로 트레이닝한다. 특징맵에서의 타깃점에 대응되는 카테고리 태그
Figure pct00120
는 상기 공식 (10)으로 결정된다. 타깃점 분류 결과
Figure pct00121
에서의 각 위치는 모두 하나의 2분류 결과를 출력하며, 상기 위치가 타깃 박스 내에 속하는지 여부를 판단한다. 알고리즘은 크로스 엔트로피 손실 함수를 사용하여
Figure pct00122
Figure pct00123
를 제한하고, 중심점과 떨어진 오프셋과 길이 폭 회귀 출력된 손실 함수에 대해
Figure pct00124
을 사용하여 산출한다. 상기의 정의된 손실 함수에 따라, 경사도 역전파의 산출 방식을 통해 네트워크 파라미터를 트레이닝한다. 모델 트레이닝이 완료된 후, 네트워크 파라미터를 고정하고, 사전 처리가 완료된 동작 영역 이미지를 네트워크에 입력하여 피드포워드하며, 현재 프레임 타깃점 분류 결과
Figure pct00125
, 오프셋 회귀 결과
Figure pct00126
및 타깃 박스 길이 폭 결과
Figure pct00127
를 예측한다.
알고리즘 포지셔닝 과정은 하기와 같다. 분류 결과
Figure pct00128
에서 극대치 점
Figure pct00129
이 위치한 위치
Figure pct00130
Figure pct00131
, 및 상기 점을 예측하여 획득한 오프셋
Figure pct00132
및 예측하여 획득한 길이 폭 정보
Figure pct00133
을 취하고, 그 다음 공식 (1) 내지 공식 (5)를 이용하여 새로운 하나의 프레임의 타깃 영역
Figure pct00134
을 산출한다.
본 발명의 실시예는 우선 추적할 이미지 중의 검색 영역과 기준 프레임 중의 타깃 이미지 영역 사이의 이미지 유사성 특징맵을 결정하고, 그 후 이미지 유사성 특징에 기반하여 추적할 이미지 중의 포지셔닝할 영역의 포지셔닝 위치 정보를 예측 또는 결정하며, 즉 검색 영역을 포함한 추적할 이미지에서 추적할 객체의 검출 박스를 결정하여, 추적할 객체의 검출 박스의 예측에 참여하는 픽셀점의 개수가 효과적으로 감소되도록 하고, 예측 효율 및 즉시성을 향상할 수 있을 뿐만 아니라, 예측 산출의 복잡도를 감소할 수 있으며, 추적할 객체의 검출 박스를 예측하는 신경망의 네트워크 아키텍처를 간략화하여, 즉시성 및 네트워크 구조 용이성 요구가 비교적 높은 모바일 단말기에 더 적용되도록 할 수 있다.
본 발명의 실시예는 단대단 트레이닝 방식을 이용하여 예측 타깃에 대해 충분히 트레이닝하고, 온라인 업데이트가 필요하지 않으며, 즉시성이 더 높다. 아울러 네트워크를 통해 타깃 박스의 위치점, 오프셋 및 길이 폭을 직접 예측하여, 산출을 통해 최종 타깃 박스 정보를 획득하여, 구조가 더욱 간단하고 효과적이며, 후보 박스의 예측 과정이 존재하지 않아 모바일 단말기의 알고리즘의 요구에 더욱 적합하며, 정밀도를 향상하는 동시에 추적 알고리즘의 즉시성을 유지하였다. 본 발명의 실시예에 따라 제공되는 알고리즘을 이용하여 모바일 단말기 및 임베딩 기기의 추적 알고리즘에 응용할 수 있는 바, 예를 들면 단말 기기 중의 안면 추적, 무인 기계의 타깃 추적 등 장면이다. 상기 알고리즘을 이용하여 모바일 또는 임베딩 기기를 결합하여 사람이 팔로잉하며 촬영하기 어려운 고속 운동, 및 지정 객체의 실시간 스마트 팔로잉 및 방향 교정 추적 태스크를 완성한다.
상기 타깃 추적 방법에 대응되게, 본 발명의 실시예에서는 타깃 추적 장치를 더 제공하였고, 상기 장치는 타깃 추적을 수행해야 하는 단말 기기에 응용되며, 상기 장치 및 그 각각의 모듈은 상기 타깃 추적 방법과 동일한 방법의 단계를 수행하고, 동일하거나 유사한 유익한 효과에 도달하므로, 중복되는 부분은 더 서술하지 않는다.
도 9에 도시된 바와 같이, 본 발명의 실시예에 따라 제공되는 타깃 추적 장치는 하기의 모듈을 포함한다.
이미지 획득 모듈(910)은 비디오 이미지를 획득한다.
유사성 특징 추출 모듈(920)은 상기 비디오 이미지 중의 기준 프레임 이미지를 제외한 후의 추적할 이미지에 대해, 상기 추적할 이미지 중의 검색 영역과 상기 기준 프레임 이미지 중의 타깃 이미지 영역 사이의 이미지 유사성 특징맵을 생성하고, 여기서, 상기 타깃 이미지 영역 내에 추적할 객체가 포함된다.
포지셔닝 모듈(930)은 상기 이미지 유사성 특징맵에 따라, 상기 검색 영역 중의 포지셔닝할 영역의 포지셔닝 위치 정보를 결정한다.
추적 모듈(940)은 상기 검색 영역에서 상기 포지셔닝할 영역의 포지셔닝 위치 정보가 결정된 것에 응답하여, 결정된 포지셔닝할 영역의 포지셔닝 위치 정보에 따라, 상기 검색 영역을 포함한 추적할 이미지에서 상기 추적할 객체의 검출 박스를 결정한다.
일부 실시예에서, 상기 포지셔닝 모듈(930)은, 상기 이미지 유사성 특징맵에 따라, 상기 포지셔닝할 영역의 사이즈 정보를 예측하며; 상기 이미지 유사성 특징맵에 따라, 상기 검색 영역의 특징맵 중의 각 특징 픽셀점의 확률 값을 예측하고, 하나의 특징 픽셀점의 확률 값은 상기 검색 영역 중 상기 특징 픽셀점에 대응되는 픽셀점이 상기 포지셔닝할 영역 내에 위치할 확률을 나타내며; 상기 이미지 유사성 특징맵에 따라, 상기 검색 영역 중 각 상기 특징 픽셀점에 대응되는 픽셀점과 상기 포지셔닝할 영역의 위치 관계 정보를 예측하고; 예측한 확률 값에서 상기 확률 값이 최대인 특징 픽셀점에 대응되는 상기 검색 영역 중의 픽셀점을 선택하여 타깃 픽셀점으로 사용하며; 상기 타깃 픽셀점, 상기 타깃 픽셀점과 상기 포지셔닝할 영역의 위치 관계 정보, 및 상기 포지셔닝할 영역의 사이즈 정보에 기반하여, 상기 포지셔닝할 영역의 포지셔닝 위치 정보를 결정한다.
일부 실시예에서, 상기 유사성 특징 추출 모듈(920)은 하기의 단계를 이용하여 상기 기준 프레임 이미지에서 상기 타깃 이미지 영역을 추출한다. 상기 기준 프레임 이미지에서 상기 추적할 객체의 검출 박스를 결정하고; 상기 기준 프레임 이미지 중의 상기 검출 박스의 사이즈 정보에 기반하여, 상기 기준 프레임 이미지 중의 상기 검출 박스에 대응되는 제1 연신 사이즈 정보를 결정하며; 상기 제1 연신 사이즈 정보에 기반하여, 상기 기준 프레임 이미지 중의 상기 검출 박스를 시작 위치로 하여 주변을 향해 연신하여, 상기 타깃 이미지 영역을 얻는다.
일부 실시예에서, 상기 유사성 특징 추출 모듈(920)은 하기의 단계를 이용하여 추적할 이미지에서 검색 영역을 추출한다. 상기 비디오 이미지 중 현재 프레임의 추적할 이미지의 바로 전의 프레임의 추적할 이미지에서, 상기 추적할 객체의 검출 박스를 획득하고; 상기 추적할 객체의 검출 박스의 사이즈 정보에 기반하여, 상기 추적할 객체의 검출 박스에 대응되는 제2 연신 사이즈 정보를 결정하며; 상기 제2 연신 사이즈 정보 및 상기 추적할 객체의 검출 박스의 사이즈 정보에 기반하여, 현재 프레임의 추적할 이미지 중의 검색 영역의 사이즈 정보를 결정하고; 상기 추적할 객체의 검출 박스의 중심점을 현재 프레임의 추적할 이미지 중의 검색 영역의 중심으로 하고, 현재 프레임의 추적할 이미지 중의 검색 영역의 사이즈 정보에 따라 상기 검색 영역을 결정한다.
일부 실시예에서, 상기 유사성 특징 추출 모듈(920)은 상기 검색 영역을 제1 기설정 사이즈로 스케일링하고, 상기 타깃 이미지 영역을 제2 기설정 사이즈로 스케일링하며; 상기 검색 영역 중의 제1 이미지 특징맵, 및 상기 타깃 이미지 영역 중의 제2 이미지 특징맵을 생성하고; 상기 제2 이미지 특징맵의 사이즈는 상기 제1 이미지 특징맵의 사이즈보다 작으며; 상기 제2 이미지 특징맵과 상기 제1 이미지 특징맵 중의 각 서브 이미지 특징맵 사이의 관련성 특징을 결정하고; 상기 서브 이미지 특징맵과 상기 제2 이미지 특징맵의 사이즈는 동일하며; 결정된 복수의 관련성 특징에 기반하여, 상기 이미지 유사성 특징맵을 생성한다.
일부 실시예에서, 상기 타깃 추적 장치는 추적 포지셔닝 신경망을 이용하여 상기 검색 영역을 포함한 추적할 이미지에서 상기 추적할 객체의 검출 박스를 결정하고; 여기서 상기 추적 포지셔닝 신경망은 타깃 객체의 검출 박스가 라벨링되어 있는 샘플 이미지에 의해 트레이닝 획득된다.
일부 실시예에서, 상기 타깃 추적 장치는, 기준 프레임 샘플 이미지 및 추적할 샘플 이미지를 포함하는 샘플 이미지를 획득하며; 상기 샘플 이미지를 트레이닝할 추적 포지셔닝 신경망에 입력하고, 상기 트레이닝할 추적 포지셔닝 신경망을 거쳐 입력된 샘플 이미지를 처리하여, 상기 추적할 샘플 이미지에서 상기 타깃 객체의 검출 박스를 예측하며; 상기 추적할 샘플 이미지에 라벨링된 검출 박스 및 상기 추적할 샘플 이미지에서 예측한 검출 박스에 기반하여, 상기 트레이닝할 추적 포지셔닝 신경망의 네트워크 파라미터를 조절하는 모델 트레이닝 모듈(950)을 더 포함한다.
일부 실시예에서, 상기 추적할 샘플 이미지 중의 포지셔닝할 영역의 포지셔닝 위치 정보를 상기 추적할 샘플 이미지에서 예측한 검출 박스의 위치 정보로 사용하되, 상기 모델 트레이닝 모듈(950)이 상기 추적할 샘플 이미지에 라벨링된 검출 박스 및 상기 추적할 샘플 이미지에서 예측한 검출 박스에 기반하여, 상기 트레이닝할 추적 포지셔닝 신경망의 네트워크 파라미터를 조절할 경우, 상기 예측한 검출 박스의 사이즈 정보, 상기 추적할 샘플 이미지 중 검색 영역에서 각 픽셀점이 상기 예측한 검출 박스 내에 위치할 예측 확률 값, 상기 추적할 샘플 이미지 중 검색 영역에서 각 픽셀점과 상기 예측한 검출 박스의 예측 위치 관계 정보, 상기 라벨링된 검출 박스의 표준 사이즈 정보, 상기 추적할 샘플 이미지 중 표준 검색 영역에서 각 픽셀점이 라벨링된 검출 박스에 위치하는지 여부의 정보, 상기 표준 검색 영역 중 각 픽셀점과 상기 라벨링된 검출 박스의 표준 위치 관계 정보에 기반하여, 상기 트레이닝할 추적 포지셔닝 신경망의 네트워크 파라미터를 조절한다.
본 발명의 실시예에서 상기 타깃 추적 장치가 검출 박스를 예측하는 과정에서 수행되는 실시형태는 상기 타깃 추적 방법의 서술을 참조 가능하며, 실시 과정은 이와 유사하며, 여기서 더 서술하지 않는다.
본 발명의 실시예에서는 전자 기기를 더 제공하였으며, 도 10에 도시된 바와 같이, 프로세서(1001), 메모리(1002) 및 버스(1003)를 포함하며, 상기 메모리(1002)에는 상기 프로세서(1001)에 의해 실행 가능한 기계 판독 가능 명령이 저장되고, 전자 기기가 작동될 경우, 상기 프로세서(1001)와 상기 메모리(1002) 사이는 버스(1003)를 통해 통신한다.
상기 기계 판독 가능 명령이 상기 프로세서(1001)에 의해 수행될 경우 하기의 타깃 추적 방법의 단계를 수행하는 바, 비디오 이미지를 획득하고; 상기 비디오 이미지 중의 기준 프레임 이미지를 제외한 후의 추적할 이미지에 대해, 상기 추적할 이미지 중의 검색 영역과 상기 기준 프레임 이미지 중의 타깃 이미지 영역 사이의 이미지 유사성 특징맵을 생성하며; 여기서, 상기 타깃 이미지 영역 내에 추적할 객체가 포함되고; 상기 이미지 유사성 특징맵에 따라, 상기 검색 영역 중의 포지셔닝할 영역의 포지셔닝 위치 정보를 결정하며; 상기 검색 영역에서 상기 포지셔닝할 영역의 포지셔닝 위치 정보가 결정된 것에 응답하여, 결정된 포지셔닝할 영역의 포지셔닝 위치 정보에 따라, 상기 검색 영역을 포함한 추적할 이미지에서 상기 추적할 객체의 검출 박스를 결정한다.
이 밖에도, 기계 판독 가능 명령이 프로세서(1001)에 의해 수행될 경우, 상기 방법의 일부 서술된 임의의 실시형태 중의 방법 내용을 수행할 수도 있으며, 여기서 더 서술하지 않는다.
본 발명의 실시예에서는 상기 방법 및 장치에 대응되는 컴퓨터 프로그램 제품을 더 제공하는 바, 프로그램 코드가 저장된 컴퓨터 판독 가능 저장 매체를 포함하고, 프로그램 코드에 포함된 명령은 위의 방법 실시예 중의 방법을 구현할 수 있으며, 구현 과정은 방법 실시예를 참조 가능하므로, 여기서 더 서술하지 않는다.
상기 각각의 실시예의 서술은 각각의 실시예 사이의 상이한 점에 치우치며, 그 동일하거나 유사한 점은 서로 참조 가능하며, 간결함을 위해 본문에서 더 서술하지 않는다.
본 기술분야의 통상의 기술자는 설명의 편의와 간결함을 위해 상기에서 설명된 시스템, 장치의 작업 과정은 전술한 방법 실시예 중의 대응되는 과정을 참조할 수 있음을 이해할 것이며, 본 발명의 실시예에서는 일일이 설명하지 않기로 한다. 본 발명에서 제공된 몇개의 실시예에서, 개시된 시스템, 장치, 방법은 다른 방식으로 실현될 수 있음을 이해해야 할 것이다. 예를 들면, 이상에서 설명한 장치 실시예는 단지 예시적인 것이고, 예를 들면 상기 유닛의 구획은 단지 논리적 기능 구획일 뿐이고 실제 응용시 다른 구획 방식이 있을 수 있으며, 예를 들면 다수의 유닛 또는 컴포넌트는 다른 하나의 시스템에 조합 또는 집적될 수 있거나, 일부 특징은 생략되거나 실행되지 않을 수 있다. 또한, 기재 또는 토론된 서로 간의 커플링 또는 직접 커플링 또는 통신 연결은 일부 인터페이스를 통한 것일 수 있고, 장치 또는 유닛의 간접 커플링 또는 통신 연결은 전기적, 기계적 또는 다른 형식일 수 있다.
이상에서 분리 부재로 설명된 모듈은 물리적으로 분리되거나 분리되지 않을 것일 수 있고, 모듈로 표시된 부재는 물리적 유닛일 수 있거나, 물리적 유닛이 아닐 수 있으며, 하나의 장소에 위치하거나, 다수의 네트워크 유닛에 분포될 수 있다. 실제 요구에 따라 그중의 일부 또는 전부 유닛을 선택하여 본 실시예의 해결수단의 목적을 실현할 수 있다.
이 밖에, 본 발명의 실시예의 각 기능 유닛은 하나의 프로세싱 유닛에 집적될 수 있거나, 각 유닛이 별도로 물리적으로 존재할 수 있거나, 둘 또는 둘 이상의 유닛이 하나의 유닛에 집적될 수 있다.
상기 기능이 만약 소프트웨어 기능 유닛의 형식으로 실현되고 별도의 제품으로 판매되거나 사용될 경우, 프로세서에 의해 실행 가능한 비일시적 컴퓨터 판독가능 저장 매체에 저장될 수 있다. 이러한 이해에 기반해보면, 본 발명의 실시예의 기술적 해결수단은 본질적으로 또는 선행기술에 기여하는 부분 또는 해당 기술적 해결수단의 일부는 소프트웨어 제품의 형식으로 구현될 수 있고, 해당 컴퓨터 소프트웨어 제품은 하나의 저장 매체에 저장되며, 약간의 명령을 포함하여 하나의 컴퓨터 기기(개인용 컴퓨터, 서버 또는 네트워크 기기 등일 수 있음)가 본 발명의 각 실시예에 따른 방법의 전부 또는 일부 단계를 실행하도록 할 수 있다. 전술한 저장 매체는 USB 메모리, 외장 하드, ROM, RAM, 디스켓 또는 CD 등 프로그램 코드를 저장할 수 있는 여러가지 매체를 포함한다.
상술한 내용은 본 발명의 실시예의 구체적인 실시형태일 뿐 본 발명의 실시예의 보호범위는 이에 한정되지 않으며, 본 기술분야의 통상의 기술자가 본 발명에서 공개된 기술범위 내에서 용이하게 생각해낸 변경 또는 대체는 모두 본 발명의 보호범위에 포함되어야 할 것이다. 따라서 본 발명의 실시예의 보호범위는 청구범위의 보호범위를 기준으로 한다.
본 발명의 실시예에서, 단대단 트레이닝 방식을 이용하여 예측 타깃 박스에 대해 충분히 트레이닝하고, 온라인 업데이트가 필요하지 않으며, 즉시성이 더 높다. 아울러 추적 네트워크를 통해 타깃 박스의 위치점, 오프셋 및 길이 폭 결과를 직접 예측하여, 최종 타깃 박스 정보를 직접 획득할 수 있다. 네트워크 구조가 더욱 간단하고 효과적이며, 후보 박스의 예측 과정이 존재하지 않아 모바일 단말기의 알고리즘의 요구에 더욱 적합하며, 정밀도를 향상하는 동시에 추적 알고리즘의 즉시성을 유지하였다.

Claims (18)

  1. 타깃 추적 방법으로서,
    비디오 이미지를 획득하는 단계;
    상기 비디오 이미지 중의 기준 프레임 이미지를 제외한 후의 추적할 이미지에 대해, 상기 추적할 이미지 중의 검색 영역과 상기 기준 프레임 이미지 중의 타깃 이미지 영역 사이의 이미지 유사성 특징맵을 생성하는 단계 - 상기 타깃 이미지 영역 내에 추적할 객체가 포함됨 - ;
    상기 이미지 유사성 특징맵에 따라, 상기 검색 영역 중의 포지셔닝할 영역의 포지셔닝 위치 정보를 결정하는 단계; 및
    상기 검색 영역에서 상기 포지셔닝할 영역의 포지셔닝 위치 정보가 결정된 것에 응답하여, 결정된 포지셔닝할 영역의 포지셔닝 위치 정보에 따라, 상기 검색 영역을 포함한 추적할 이미지에서 상기 추적할 객체의 검출 박스를 결정하는 단계를 포함하는 타깃 추적 방법.
  2. 제1항에 있어서,
    상기 이미지 유사성 특징맵에 따라, 상기 검색 영역 중의 포지셔닝할 영역의 포지셔닝 위치 정보를 결정하는 단계는,
    상기 이미지 유사성 특징맵에 따라, 상기 포지셔닝할 영역의 사이즈 정보를 예측하는 단계;
    상기 이미지 유사성 특징맵에 따라, 상기 검색 영역의 특징맵 중의 각 특징 픽셀점의 확률 값을 예측하는 단계 - 하나의 특징 픽셀점의 확률 값은 상기 검색 영역 중 상기 특징 픽셀점에 대응되는 픽셀점이 상기 포지셔닝할 영역 내에 위치할 확률을 나타냄 - ;
    상기 이미지 유사성 특징맵에 따라, 상기 검색 영역 중 각 상기 특징 픽셀점에 대응되는 픽셀점과 상기 포지셔닝할 영역의 위치 관계 정보를 예측하는 단계;
    예측한 확률 값에서 상기 확률 값이 최대인 특징 픽셀점에 대응되는 상기 검색 영역 중의 픽셀점을 선택하여 타깃 픽셀점으로 사용하는 단계; 및
    상기 타깃 픽셀점, 상기 타깃 픽셀점과 상기 포지셔닝할 영역의 위치 관계 정보, 및 상기 포지셔닝할 영역의 사이즈 정보에 기반하여, 상기 포지셔닝할 영역의 포지셔닝 위치 정보를 결정하는 단계를 포함하는 타깃 추적 방법.
  3. 제1항 또는 제2항에 있어서,
    상기 기준 프레임 이미지에서 상기 추적할 객체의 검출 박스를 결정하는 단계;
    상기 기준 프레임 이미지 중의 상기 검출 박스의 사이즈 정보에 기반하여, 상기 기준 프레임 이미지 중의 상기 검출 박스에 대응되는 제1 연신 사이즈 정보를 결정하는 단계; 및
    상기 제1 연신 사이즈 정보에 기반하여, 상기 기준 프레임 이미지 중의 상기 검출 박스를 시작 위치로 하여 주변을 향해 연신하여, 상기 타깃 이미지 영역을 얻는 단계에 따라 상기 기준 프레임 이미지에서 상기 타깃 이미지 영역을 추출하는 타깃 추적 방법.
  4. 제1항 또는 제2항에 있어서,
    상기 비디오 이미지 중 현재 프레임의 추적할 이미지의 바로 전의 프레임의 추적할 이미지에서, 상기 추적할 객체의 검출 박스를 획득하는 단계;
    상기 추적할 객체의 검출 박스의 사이즈 정보에 기반하여, 상기 추적할 객체의 검출 박스에 대응되는 제2 연신 사이즈 정보를 결정하는 단계;
    상기 제2 연신 사이즈 정보 및 상기 추적할 객체의 검출 박스의 사이즈 정보에 기반하여, 현재 프레임의 추적할 이미지 중의 검색 영역의 사이즈 정보를 결정하는 단계; 및
    상기 추적할 객체의 검출 박스의 중심점을 현재 프레임의 추적할 이미지 중의 검색 영역의 중심으로 하고, 현재 프레임의 추적할 이미지 중의 검색 영역의 사이즈 정보에 따라 상기 검색 영역을 결정하는 단계에 따라 추적할 이미지에서 검색 영역을 추출하는 타깃 추적 방법.
  5. 제1항 내지 제4항 중 어느 한 항에 있어서,
    상기 추적할 이미지 중의 검색 영역과 상기 기준 프레임 이미지 중의 타깃 이미지 영역 사이의 이미지 유사성 특징맵을 생성하는 단계는,
    상기 검색 영역을 제1 기설정 사이즈로 스케일링하고, 상기 타깃 이미지 영역을 제2 기설정 사이즈로 스케일링하는 단계;
    상기 검색 영역 중의 제1 이미지 특징맵, 및 상기 타깃 이미지 영역 중의 제2 이미지 특징맵을 생성하는 단계 - 상기 제2 이미지 특징맵의 사이즈는 상기 제1 이미지 특징맵의 사이즈보다 작음 - ;
    상기 제2 이미지 특징맵과 상기 제1 이미지 특징맵 중의 각 서브 이미지 특징맵 사이의 관련성 특징을 결정하는 단계 - 상기 서브 이미지 특징맵과 상기 제2 이미지 특징맵의 사이즈는 동일함 - ; 및
    결정된 복수의 관련성 특징에 기반하여, 상기 이미지 유사성 특징맵을 생성하는 단계를 포함하는 타깃 추적 방법.
  6. 제1항 내지 제5항 중 어느 한 항에 있어서,
    상기 타깃 추적 방법은 추적 포지셔닝 신경망에 의해 수행되고; 상기 추적 포지셔닝 신경망은 타깃 객체의 검출 박스가 라벨링되어 있는 샘플 이미지에 의해 트레이닝 획득되는 타깃 추적 방법.
  7. 제6항에 있어서,
    상기 방법은,
    기준 프레임 샘플 이미지 및 추적할 샘플 이미지를 포함하는 샘플 이미지를 획득하는 단계;
    상기 샘플 이미지를 트레이닝할 추적 포지셔닝 신경망에 입력하고, 상기 트레이닝할 추적 포지셔닝 신경망을 거쳐 입력된 샘플 이미지를 처리하여, 상기 추적할 샘플 이미지에서 상기 타깃 객체의 검출 박스를 예측하는 단계; 및
    상기 추적할 샘플 이미지에 라벨링된 검출 박스, 및 상기 추적할 샘플 이미지에서 예측한 검출 박스에 기반하여, 상기 트레이닝할 추적 포지셔닝 신경망의 네트워크 파라미터를 조절하는 단계를 거쳐, 상기 추적 포지셔닝 신경망을 트레이닝하는 단계를 더 포함하는 타깃 추적 방법.
  8. 제7항에 있어서,
    상기 추적할 샘플 이미지 중의 포지셔닝할 영역의 포지셔닝 위치 정보를 상기 추적할 샘플 이미지에서 예측한 검출 박스의 위치 정보로 사용하되,
    상기 추적할 샘플 이미지에 라벨링된 검출 박스, 및 상기 추적할 샘플 이미지에서 예측한 검출 박스에 기반하여, 상기 트레이닝할 추적 포지셔닝 신경망의 네트워크 파라미터를 조절하는 상기 단계는,
    상기 예측한 검출 박스의 사이즈 정보, 상기 추적할 샘플 이미지 중 검색 영역에서 각 픽셀점이 상기 예측한 검출 박스 내에 위치할 예측 확률 값, 상기 추적할 샘플 이미지 중 검색 영역에서 각 픽셀점과 상기 예측한 검출 박스의 예측 위치 관계 정보, 상기 라벨링된 검출 박스의 표준 사이즈 정보, 상기 추적할 샘플 이미지 중 표준 검색 영역에서 각 픽셀점이 라벨링된 검출 박스에 위치하는지 여부의 정보 및 상기 표준 검색 영역 중 각 픽셀점과 상기 라벨링된 검출 박스의 표준 위치 관계 정보에 기반하여, 상기 트레이닝할 추적 포지셔닝 신경망의 네트워크 파라미터를 조절하는 단계를 포함하는 타깃 추적 방법.
  9. 타깃 추적 장치로서,
    비디오 이미지를 획득하는 이미지 획득 모듈;
    상기 비디오 이미지 중의 기준 프레임 이미지를 제외한 후의 추적할 이미지에 대해, 상기 추적할 이미지 중의 검색 영역과 상기 기준 프레임 이미지 중의 타깃 이미지 영역 사이의 이미지 유사성 특징맵을 생성하는 유사성 특징 추출 모듈 - 상기 타깃 이미지 영역 내에 추적할 객체가 포함됨 - ;
    상기 이미지 유사성 특징맵에 따라, 상기 검색 영역 중의 포지셔닝할 영역의 포지셔닝 위치 정보를 결정하는 포지셔닝 모듈; 및
    상기 검색 영역에서 상기 포지셔닝할 영역의 포지셔닝 위치 정보가 결정된 것에 응답하여, 결정된 포지셔닝할 영역의 포지셔닝 위치 정보에 따라, 상기 검색 영역을 포함한 추적할 이미지에서 상기 추적할 객체의 검출 박스를 결정하는 추적 모듈을 포함하는 타깃 추적 장치.
  10. 제9항에 있어서,
    상기 포지셔닝 모듈은,
    상기 이미지 유사성 특징맵에 따라, 상기 포지셔닝할 영역의 사이즈 정보를 예측하며;
    상기 이미지 유사성 특징맵에 따라, 상기 검색 영역의 특징맵 중의 각 특징 픽셀점의 확률 값을 예측하고, 하나의 특징 픽셀점의 확률 값은 상기 검색 영역 중 상기 특징 픽셀점에 대응되는 픽셀점이 상기 포지셔닝할 영역 내에 위치할 확률을 나타내며;
    상기 이미지 유사성 특징맵에 따라, 상기 검색 영역 중 각 상기 특징 픽셀점에 대응되는 픽셀점과 상기 포지셔닝할 영역의 위치 관계 정보를 예측하고;
    예측한 확률 값에서 상기 확률 값이 최대인 특징 픽셀점에 대응되는 상기 검색 영역 중의 픽셀점을 선택하여 타깃 픽셀점으로 사용하며;
    상기 타깃 픽셀점, 상기 타깃 픽셀점과 상기 포지셔닝할 영역의 위치 관계 정보, 및 상기 포지셔닝할 영역의 사이즈 정보에 기반하여, 상기 포지셔닝할 영역의 포지셔닝 위치 정보를 결정하도록 구성되는 타깃 추적 장치.
  11. 제9항 또는 제10항에 있어서,
    상기 유사성 특징 추출 모듈은,
    상기 기준 프레임 이미지에서 상기 추적할 객체의 검출 박스를 결정하는 단계;
    상기 기준 프레임 이미지 중의 상기 검출 박스의 사이즈 정보에 기반하여, 상기 기준 프레임 이미지 중의 상기 검출 박스에 대응되는 제1 연신 사이즈 정보를 결정하는 단계; 및
    상기 제1 연신 사이즈 정보에 기반하여, 상기 기준 프레임 이미지 중의 상기 검출 박스를 시작 위치로 하여 주변을 향해 연신하여, 상기 타깃 이미지 영역을 얻는 단계를 이용하여, 상기 기준 프레임 이미지에서 상기 타깃 이미지 영역을 추출하도록 구성되는 타깃 추적 장치.
  12. 제9항 또는 제10항에 있어서,
    상기 유사성 특징 추출 모듈은,
    상기 비디오 이미지 중 현재 프레임의 추적할 이미지의 바로 전의 프레임의 추적할 이미지에서, 상기 추적할 객체의 검출 박스를 획득하는 단계;
    상기 추적할 객체의 검출 박스의 사이즈 정보에 기반하여, 상기 추적할 객체의 검출 박스에 대응되는 제2 연신 사이즈 정보를 결정하는 단계;
    상기 제2 연신 사이즈 정보 및 상기 추적할 객체의 검출 박스의 사이즈 정보에 기반하여, 현재 프레임의 추적할 이미지 중의 검색 영역의 사이즈 정보를 결정하는 단계; 및
    상기 추적할 객체의 검출 박스의 중심점을 현재 프레임의 추적할 이미지 중의 검색 영역의 중심으로 하고, 현재 프레임의 추적할 이미지 중의 검색 영역의 사이즈 정보에 따라 상기 검색 영역을 결정하는 단계를 이용하여, 추적할 이미지에서 검색 영역을 추출하도록 구성되는 타깃 추적 장치.
  13. 제9항 내지 제12항 중 어느 한 항에 있어서,
    상기 유사성 특징 추출 모듈은,
    상기 검색 영역을 제1 기설정 사이즈로 스케일링하고, 상기 타깃 이미지 영역을 제2 기설정 사이즈로 스케일링하며;
    상기 검색 영역 중의 제1 이미지 특징맵, 및 상기 타깃 이미지 영역 중의 제2 이미지 특징맵을 생성하고; 상기 제2 이미지 특징맵의 사이즈는 상기 제1 이미지 특징맵의 사이즈보다 작으며;
    상기 제2 이미지 특징맵과 상기 제1 이미지 특징맵 중의 각 서브 이미지 특징맵 사이의 관련성 특징을 결정하고; 상기 서브 이미지 특징맵과 상기 제2 이미지 특징맵의 사이즈는 동일하며;
    결정된 복수의 관련성 특징에 기반하여, 상기 이미지 유사성 특징맵을 생성하도록 구성되는 타깃 추적 장치.
  14. 제9항 내지 제13항 중 어느 한 항에 있어서,
    상기 타깃 추적 장치는 추적 포지셔닝 신경망을 이용하여 상기 검색 영역을 포함한 추적할 이미지에서 상기 추적할 객체의 검출 박스를 결정하도록 구성되고; 상기 추적 포지셔닝 신경망은 타깃 객체의 검출 박스가 라벨링되어 있는 샘플 이미지에 의해 트레이닝 획득되는 타깃 추적 장치.
  15. 제14항에 있어서,
    상기 타깃 추적 장치는,
    기준 프레임 샘플 이미지 및 추적할 샘플 이미지를 포함하는 샘플 이미지를 획득하며;
    상기 샘플 이미지를 트레이닝할 추적 포지셔닝 신경망에 입력하고, 상기 트레이닝할 추적 포지셔닝 신경망을 거쳐 입력된 샘플 이미지를 처리하여, 상기 추적할 샘플 이미지에서 상기 타깃 객체의 검출 박스를 예측하며;
    상기 추적할 샘플 이미지에 라벨링된 검출 박스 및 상기 추적할 샘플 이미지에서 예측한 검출 박스에 기반하여, 상기 트레이닝할 추적 포지셔닝 신경망의 네트워크 파라미터를 조절하는 모델 트레이닝 모듈을 더 포함하는 타깃 추적 장치.
  16. 제15항에 있어서,
    상기 추적할 샘플 이미지 중의 포지셔닝할 영역의 포지셔닝 위치 정보를 상기 추적할 샘플 이미지에서 예측한 검출 박스의 위치 정보로 사용하되, 상기 모델 트레이닝 모듈은, 상기 추적할 샘플 이미지에 라벨링된 검출 박스 및 상기 추적할 샘플 이미지에서 예측한 검출 박스에 기반하여, 상기 트레이닝할 추적 포지셔닝 신경망의 네트워크 파라미터를 조절할 경우,
    상기 추적할 샘플 이미지에서 예측한 검출 박스의 사이즈 정보, 상기 추적할 샘플 이미지 중 검색 영역에서 각 픽셀점이 상기 추적할 샘플 이미지에서 예측한 검출 박스 내에 위치하는 예측 확률 값, 상기 추적할 샘플 이미지 중 검색 영역에서 각 픽셀점과 상기 추적할 샘플 이미지에서 예측한 검출 박스의 예측 위치 관계 정보, 상기 추적할 샘플 이미지에 라벨링된 검출 박스의 표준 사이즈 정보, 상기 추적할 샘플 이미지 중 표준 검색 영역에서 각 픽셀점이 라벨링된 검출 박스에 위치하는지 여부의 정보, 상기 추적할 샘플 이미지 중 표준 검색 영역에서 각 픽셀점과 상기 추적할 샘플 이미지에 라벨링된 검출 박스의 표준 위치 관계 정보에 기반하여, 상기 트레이닝할 추적 포지셔닝 신경망의 네트워크 파라미터를 조절하도록 구성되는 타깃 추적 장치.
  17. 전자 기기로서,
    프로세서, 저장 매체 및 버스를 포함하며, 상기 저장 매체에는 상기 프로세서에 의해 실행 가능한 기계 판독 가능 명령이 저장되고, 전자 기기가 작동될 경우, 상기 프로세서와 상기 저장 매체 사이는 버스를 통해 통신하며, 상기 프로세서는 상기 기계 판독 가능 명령을 실행하여, 제1항 내지 제8항 중 어느 한 항에 따른 타깃 추적 방법을 구현하는 전자 기기.
  18. 컴퓨터 판독 가능 저장 매체로서,
    컴퓨터 프로그램이 저장되고, 상기 컴퓨터 프로그램이 프로세서에 의해 실행될 경우 제1항 내지 제8항 중 어느 한 항에 따른 타깃 추적 방법을 구현하는 컴퓨터 판독 가능 저장 매체.
KR1020227023350A 2020-01-06 2020-12-11 타깃 추적 방법, 장치, 전자 기기 및 저장 매체 KR20220108165A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202010011243.0A CN111242973A (zh) 2020-01-06 2020-01-06 目标跟踪方法、装置、电子设备及存储介质
CN202010011243.0 2020-01-06
PCT/CN2020/135971 WO2021139484A1 (zh) 2020-01-06 2020-12-11 目标跟踪方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
KR20220108165A true KR20220108165A (ko) 2022-08-02

Family

ID=70872351

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020227023350A KR20220108165A (ko) 2020-01-06 2020-12-11 타깃 추적 방법, 장치, 전자 기기 및 저장 매체

Country Status (5)

Country Link
US (1) US20220366576A1 (ko)
JP (1) JP2023509953A (ko)
KR (1) KR20220108165A (ko)
CN (1) CN111242973A (ko)
WO (1) WO2021139484A1 (ko)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111242973A (zh) * 2020-01-06 2020-06-05 上海商汤临港智能科技有限公司 目标跟踪方法、装置、电子设备及存储介质
CN111744187B (zh) * 2020-08-10 2022-04-15 腾讯科技(深圳)有限公司 一种游戏数据处理方法、装置、计算机及可读存储介质
CN111986262B (zh) * 2020-09-07 2024-04-26 凌云光技术股份有限公司 一种图像区域定位方法及装置
CN112464001B (zh) * 2020-12-11 2022-07-05 厦门四信通信科技有限公司 一种物体移动跟踪方法、装置、设备及存储介质
CN112907628A (zh) * 2021-02-09 2021-06-04 北京有竹居网络技术有限公司 视频目标追踪方法、装置、存储介质及电子设备
CN113140005B (zh) * 2021-04-29 2024-04-16 上海商汤科技开发有限公司 目标对象定位方法、装置、设备及存储介质
CN113627379A (zh) * 2021-08-19 2021-11-09 北京市商汤科技开发有限公司 一种图像处理方法、装置、设备以及存储介质
CN113450386B (zh) * 2021-08-31 2021-12-03 北京美摄网络科技有限公司 一种人脸跟踪方法和装置
CN113793364B (zh) * 2021-11-16 2022-04-15 深圳佑驾创新科技有限公司 目标跟踪方法、装置、计算机设备和存储介质
CN114554300B (zh) * 2022-02-28 2024-05-07 合肥高维数据技术有限公司 基于特定目标的视频水印嵌入方法
CN115393755A (zh) * 2022-07-11 2022-11-25 影石创新科技股份有限公司 视觉目标跟踪方法、装置、设备以及存储介质
CN116385485B (zh) * 2023-03-13 2023-11-14 腾晖科技建筑智能(深圳)有限公司 一种长条形塔吊吊物的视频跟踪方法及系统
CN116152298B (zh) * 2023-04-17 2023-08-29 中国科学技术大学 一种基于自适应局部挖掘的目标跟踪方法
CN117710701A (zh) * 2023-06-13 2024-03-15 荣耀终端有限公司 一种追踪物体的方法、装置和电子设备

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103530894B (zh) * 2013-10-25 2016-04-20 合肥工业大学 一种基于多尺度块稀疏表示的视频目标追踪方法及其系统
CN103714554A (zh) * 2013-12-12 2014-04-09 华中科技大学 一种基于传播融合的视频跟踪方法
JP6004148B1 (ja) * 2014-12-15 2016-10-05 コニカミノルタ株式会社 画像処理装置、画像処理方法、および画像処理プログラム
CN106909885A (zh) * 2017-01-19 2017-06-30 博康智能信息技术有限公司上海分公司 一种基于目标候选的目标跟踪方法及装置
CN109145781B (zh) * 2018-08-03 2021-05-04 北京字节跳动网络技术有限公司 用于处理图像的方法和装置
CN109493367B (zh) * 2018-10-29 2020-10-30 浙江大华技术股份有限公司 一种对目标对象进行跟踪的方法和设备
CN109671103A (zh) * 2018-12-12 2019-04-23 易视腾科技股份有限公司 目标跟踪方法及装置
CN109858455B (zh) * 2019-02-18 2023-06-20 南京航空航天大学 一种针对圆形目标的分块检测尺度自适应跟踪方法
CN110176027B (zh) * 2019-05-27 2023-03-14 腾讯科技(深圳)有限公司 视频目标跟踪方法、装置、设备及存储介质
CN110363791B (zh) * 2019-06-28 2022-09-13 南京理工大学 一种融合单目标跟踪结果的在线多目标跟踪方法
CN111242973A (zh) * 2020-01-06 2020-06-05 上海商汤临港智能科技有限公司 目标跟踪方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
WO2021139484A1 (zh) 2021-07-15
CN111242973A (zh) 2020-06-05
JP2023509953A (ja) 2023-03-10
US20220366576A1 (en) 2022-11-17

Similar Documents

Publication Publication Date Title
KR20220108165A (ko) 타깃 추적 방법, 장치, 전자 기기 및 저장 매체
CN112132856B (zh) 一种基于自适应模板更新的孪生网络跟踪方法
CN111415318B (zh) 基于拼图任务的无监督相关滤波目标跟踪方法及系统
KR101893554B1 (ko) 멀티 모달 데이터 기반 표정인식방법 및 장치
CN113963032A (zh) 一种融合目标重识别的孪生网络结构目标跟踪方法
CN108875456B (zh) 目标检测方法、目标检测装置和计算机可读存储介质
CN114049381A (zh) 一种融合多层语义信息的孪生交叉目标跟踪方法
CN105912126B (zh) 一种手势运动映射到界面的增益自适应调整方法
CN109886159A (zh) 一种非限定条件下的人脸检测方法
CN112207821A (zh) 视觉机器人的目标搜寻方法及机器人
JP2014116716A (ja) 追尾装置
CN113689440A (zh) 一种视频处理方法、装置、计算机设备以及存储介质
CN113643329B (zh) 一种基于孪生注意力网络的在线更新目标跟踪方法和系统
CN113610865B (zh) 图像处理方法、装置、电子设备及计算机可读存储介质
US20230072445A1 (en) Self-supervised video representation learning by exploring spatiotemporal continuity
CN117576149A (zh) 一种基于注意力机制的单目标跟踪方法
CN116805353A (zh) 跨行业通用的智能机器视觉感知方法
CN111571567A (zh) 机器人转译技能训练方法、装置及电子设备和存储介质
CN111612802A (zh) 一种基于现有图像语义分割模型的再优化训练方法及应用
Li et al. CDMY: A lightweight object detection model based on coordinate attention
CN111079535A (zh) 一种人体骨架动作识别方法、装置及终端
CN115880573A (zh) 一种基于神经网络获取海草面积的方法、装置及设备
CN113392820B (zh) 动态手势识别方法、装置、电子设备及可读存储介质
CN116030516A (zh) 基于多任务学习与全局循环卷积的微表情识别方法及装置
CN112132864B (zh) 基于视觉的机器人跟随方法及跟随机器人

Legal Events

Date Code Title Description
A201 Request for examination