KR20200087784A - 목표 검출 방법 및 장치, 트레이닝 방법, 전자 기기 및 매체 - Google Patents

목표 검출 방법 및 장치, 트레이닝 방법, 전자 기기 및 매체 Download PDF

Info

Publication number
KR20200087784A
KR20200087784A KR1020207016026A KR20207016026A KR20200087784A KR 20200087784 A KR20200087784 A KR 20200087784A KR 1020207016026 A KR1020207016026 A KR 1020207016026A KR 20207016026 A KR20207016026 A KR 20207016026A KR 20200087784 A KR20200087784 A KR 20200087784A
Authority
KR
South Korea
Prior art keywords
frame
detection
detection frame
regression
candidate
Prior art date
Application number
KR1020207016026A
Other languages
English (en)
Inventor
보 리
웨이 위
Original Assignee
베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드 filed Critical 베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드
Publication of KR20200087784A publication Critical patent/KR20200087784A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/248Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/255Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06K9/6256
    • G06K9/6267
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Image Analysis (AREA)

Abstract

본 발명의 실시예는 목표 검출 방법 및 장치, 트레이닝 방법, 전자 기기 및 매체를 개시하는 것으로, 목표 검출 방법은 검출 프레임과, 목표 대상물의 검출 프레임의 이미지로서, 이미지의 크기가 상기 검출 프레임보다 작은 템플릿 프레임의 특징을 뉴럴 네트워크에 의해 각각 추출하는 것과, 상기 템플릿 프레임의 특징에 기초하여 국소 영역 검출기의 분류 가중치와 회귀 가중치를 취득하는 것과, 상기 검출 프레임의 특징을 상기 국소 영역 검출기에 입력하고, 상기 국소 영역 검출기에서 출력되는 복수의 후보 프레임의 분류 결과와 회귀 결과를 취득하는 것과, 상기 국소 영역 검출기에서 출력되는 복수의 후보 프레임의 분류 결과와 회귀 결과에 의해, 상기 검출 프레임에서의 상기 목표 대상물의 검출 프레임을 취득하는 것을 포함하는 것으로, 본 발명의 실시예는 목표 추적의 속도와 정확성을 높일 수 있는 것이다.

Description

목표 검출 방법 및 장치, 트레이닝 방법, 전자 기기 및 매체
본원은 2017년 11월 12일에 중국 특허국에 제출된 출원번호 CN201711110587.1, 발명의 명칭 「목표 검출 방법 및 장치, 트레이닝 방법, 전자 기기, 프로그램 및 매체」의 중국 특허출원의 우선권을 주장하고, 그 개시 전체가 참조에 의해 본원에 포함된다.
본 발명은 컴퓨터 비전 기술에 관한 것으로, 특히 목표 검출 방법 및 장치, 트레이닝 방법, 전자 기기 및 매체에 관한 것이다.
단일 목표 추적은 인공 지능 분야의 중요한 과제가 되고 있고, 자동 운전, 다목표 추적 등의 일련의 태스크에 사용된다. 단일 목표 추적의 주된 태스크는 비디오 시퀀스의 세그먼트 내의 한 프레임의 이미지에서 추적되는 목표를 지정하고, 그 후의 프레임 이미지에서 이 지정된 목표를 계속적으로 추적하는 것이다.
본 발명의 실시예는 목표 추적을 행하기 위한 기술적 수단을 제공한다.
본 발명의 실시예의 일방면에 의하면,
검출 프레임과, 목표 대상물의 검출 프레임의 이미지로서, 이미지의 크기가 상기 검출 프레임보다 작은 템플릿 프레임의 특징을 뉴럴 네트워크에 의해 각각 추출하는 것과,
상기 템플릿 프레임의 특징에 기초하여 국소 영역 검출기의 분류 가중치와 회귀 가중치를 취득하는 것과,
상기 검출 프레임의 특징을 상기 국소 영역 검출기에 입력하고, 상기 국소 영역 검출기에서 출력되는 복수의 후보 프레임의 분류 결과와 회귀 결과를 취득하는 것과,
상기 국소 영역 검출기에서 출력되는 복수의 후보 프레임의 분류 결과와 회귀 결과에 의해, 상기 검출 프레임에서의 상기 목표 대상물의 검출 프레임을 취득하는 것을 포함하는 목표 추적 방법을 제공한다.
본 발명의 실시예의 다른 방면에 의하면,
검출 프레임과, 목표 대상물의 검출 프레임의 이미지로서, 이미지의 크기가 상기 검출 프레임보다 작은 템플릿 프레임의 특징을 뉴럴 네트워크에 의해 각각 추출하는 것과,
제1 합성곱층에 의해 상기 템플릿 프레임의 특징의 채널을 증가시키고, 얻어진 제1 특징을 상기 국소 영역 검출기의 분류 가중치로 하고, 제2 합성곱층에 의해 상기 템플릿 프레임의 특징의 채널을 증가시키고, 얻어진 제2 특징을 상기 국소 영역 검출기의 회귀 가중치로 하는 것과,
상기 검출 프레임의 특징을 상기 국소 영역 검출기에 입력하고, 상기 국소 영역 검출기에서 출력되는 복수의 후보 프레임의 분류 결과와 회귀 결과를 취득하는 것과,
상기 국소 영역 검출기에서 출력되는 복수의 후보 프레임의 분류 결과와 회귀 결과에 의해, 상기 검출 프레임에서의 상기 목표 대상물의 검출 프레임을 취득하는 것과,
취득된 상기 검출 프레임에서의 상기 목표 대상물의 검출 프레임을 예측 검출 프레임으로 하고, 상기 검출 프레임의 라벨링 정보와 상기 예측 검출 프레임에 기초하여 상기 뉴럴 네트워크, 상기 제1 합성곱층 및 상기 제2 합성곱층을 트레이닝하는 것을 포함하는 목표 검출 네트워크의 트레이닝 방법을 제공한다.
본 발명의 실시예의 또 하나의 방면에 의하면,
검출 프레임과, 목표 대상물의 검출 프레임의 이미지로서, 이미지의 크기가 상기 검출 프레임보다 작은 템플릿 프레임의 특징을 각각 추출하기 위한 뉴럴 네트워크와,
상기 템플릿 프레임의 특징의 채널을 증가시키고, 얻어진 제1 특징을 국소 영역 검출기의 분류 가중치로 하기 위한 제1 합성곱층과,
상기 템플릿 프레임의 특징의 채널을 증가시키고, 얻어진 제2 특징을 상기 국소 영역 검출기의 회귀 가중치로 하기 위한 제2 합성곱층과,
상기 검출 프레임의 특징에 의해 복수의 후보 프레임의 분류 결과와 회귀 결과를 출력하기 위한 국소 영역 검출기와,
상기 국소 영역 검출기에서 출력되는 복수의 후보 프레임의 분류 결과와 회귀 결과에 의해, 상기 검출 프레임에서의 상기 목표 대상물의 검출 프레임을 취득하기 위한 취득 유닛을 포함하는 목표 검출 장치를 제공한다.
본 발명의 실시예의 추가적인 다른 방면에 의하면, 본 발명의 실시예 중 어느 하나에 기재된 상기 목표 검출 장치를 포함하는 전자 기기를 제공한다.
본 발명의 실시예의 추가적인 다른 방면에 의하면,
실행 가능 명령을 기억하기 위한 메모리와,
상기 메모리와 통신하여 상기 실행 가능 명령을 실행함으로써 본 발명의 실시예 중 어느 하나에 기재된 상기 방법의 조작을 완성하기 위한 프로세서를 포함하는 별도의 전자 기기를 제공한다.
본 발명의 실시예의 추가적인 다른 방면에 의하면, 컴퓨터 판독 가능 명령을 기억하기 위한 컴퓨터 기억 매체로서, 상기 명령이 실행되면, 본 발명의 실시예 중 어느 하나에 기재된 상기 방법의 조작이 실현되는 컴퓨터 기억 매체를 제공한다.
본 발명의 실시예의 추가적인 다른 방면에 의하면, 컴퓨터 판독 가능 명령을 포함하는 컴퓨터 프로그램으로서, 상기 컴퓨터 판독 가능 명령이 기기 상에서 작동하면 상기 기기에서의 프로세서에 본 발명의 실시예 중 어느 하나에 기재된 상기 방법에서의 단계를 실현하기 위한 실행 가능 명령을 실행시키는 컴퓨터 프로그램을 제공한다.
본 발명의 상기 실시예에 의하면, 뉴럴 네트워크에 의해 템플릿 프레임과 검출 프레임의 특징을 각각 추출하고, 템플릿 프레임의 특징에 기초하여 국소 영역 검출기의 분류 가중치와 회귀 가중치를 취득하고, 검출 프레임의 특징을 국소 영역 검출기에 입력하고, 국소 영역 검출기에서 출력되는 복수의 후보 프레임의 분류 결과와 회귀 결과를 취득하고, 국소 영역 검출기에서 출력되는 복수의 후보 프레임의 분류 결과와 회귀 결과에 의해, 검출 프레임에서의 목표 대상물의 검출 프레임을 취득한다. 본 발명의 실시예에서는 동일한 뉴럴 네트워크 또는 동일한 구성을 갖는 뉴럴 네트워크에 의해 동일한 목표 대상물의 유사 특징을 보다 잘 추출할 수 있고, 상이한 프레임에서 추출된 목표 대상물의 특징 변화가 작고, 검출 프레임에서의 목표 대상물의 검출 결과의 정확성을 높이는 데 기여한다. 또한, 템플릿 프레임의 특징에 기초하여 국소 영역 검출기의 분류 가중치와 회귀 가중치를 취득함으로써, 국소 영역 검출기는 검출 프레임의 복수의 후보 프레임의 분류 결과와 회귀 결과를 취득하고, 추가로 검출 프레임에서의 상기 목표 대상물의 검출 프레임을 취득할 수 있고, 목표 대상물의 위치와 크기의 변화를 보다 잘 추정할 수 있고, 검출 프레임에서의 목표 대상물의 위치를 보다 정확하게 확정할 수 있고, 목표 추적의 속도나 정확성이 높아져 추적 효과가 우수하고, 속도가 빠르다.
이하, 도면 및 실시예에 의해 본 발명의 기술적 수단을 추가로 상세히 설명한다.
명세서의 일부를 구성하는 도면은 본 발명의 실시예를 설명하기 위한 것으로서, 또한 실시예에 대한 설명과 함께 본 발명의 원리를 해석하기 위한 것이다.
도면을 따른 이하의 상세한 설명에 의해, 본 발명을 보다 명료하게 이해할 수 있다.
도 1은 본 발명의 목표 검출 방법의 일 실시예의 흐름도이다.
도 2는 본 발명의 목표 검출 방법의 다른 실시예의 흐름도이다.
도 3은 본 발명의 목표 검출 네트워크의 트레이닝 방법의 일 실시예의 흐름도이다.
도 4는 본 발명의 목표 검출 네트워크의 트레이닝 방법의 다른 실시예의 흐름도이다.
도 5는 본 발명의 목표 검출 장치의 일 실시예의 구성 모식도이다.
도 6은 본 발명의 목표 검출 장치의 다른 실시예의 구성 모식도이다.
도 7은 본 발명의 목표 검출 장치의 또 하나의 실시예의 구성 모식도이다.
도 8은 본 발명의 목표 검출 장치의 일 적용 실시예의 구성 모식도이다.
도 9는 본 발명의 목표 검출 장치의 다른 적용 실시예의 구성 모식도이다.
도 10은 본 발명의 전자 기기의 일 적용 실시예의 구성 모식도이다.
여기서, 도면을 참조하면서 본 발명의 다양한 예시적인 실시예를 상세하게 설명한다. 또한, 특별히 언급하지 않는 한, 이들 실시예에서 기술한 부재 및 단계의 상대적 배치, 수식 및 값은 본 발명의 범위를 한정하는 것이 아닌 것에 주의해야 한다.
또한, 본 발명의 실시예에서는 「복수」는 2개 이상을 가리키면 되고, 「하나 이상」는 1개 이상을 가리키면 되는 것을 이해해야 한다.
본원의 실시예에서의 「제1」, 「제2」 등의 용어는 상이한 단계, 기기 또는 모듈 등을 구별하기 위한 것에 지나지 않고, 특정한 기술적 의미를 나타내거나, 필연적인 논리적 순서를 나타내는 것은 아닌 것이 당업자에게 이해 가능하다.
또한, 본 발명에서 언급된 임의의 부재, 데이터 또는 구조는 명확하게 한정되지 않는 한 또는 명세서의 전후에서 반대적인 것이 시사되지 않는 한, 일반적으로는 하나 또는 복수로 이해해야 한다.
또한, 본 발명에서는 각 실시예에 대해 상이점을 강조하여 설명하고, 동일하거나 또는 유사적인 점에 대해 상호 참조할 수 있기 때문에, 간소화하기 위해 반복하여 설명하지 않는 것을 이해해야 한다.
동시에, 설명의 편의상, 도면에 나타낸 각 부분의 치수는 실제 비례 관계를 따라 그린 것은 아님을 이해해야 한다.
이하의 하나 이상의 예시적인 실시예에 대한 설명은 실질적으로 설명하기 위한 것에 지나지 않고, 본 발명 및 그 적용 또는 사용을 한정하는 것은 아니다.
관련 분야의 당업자에게 이미 알려진 기술, 방법 및 기기에 대해서는 상세하게 설명하지 않는 경우가 있지만, 경우에 따라, 상기 기술, 방법 및 기기는 명세서의 일부로서의 원용으로 간주해야 한다.
또한, 이하의 도면에서 유사한 부호 및 영문자는 유사 항목을 나타내고, 어느 항목이 있는 도면에서 정의되면, 이후의 도면에서 그것을 추가로 설명할 필요가 없는 것에 주의해야 한다.
본 발명의 실시예는 단말 장치, 컴퓨터 시스템, 서버 등의 전자 기기에 적용 가능하고, 그것은 다른 많은 범용 또는 전용 컴퓨팅 시스템 환경 또는 구성에서 동작 가능하다. 단말 장치, 컴퓨터 시스템, 서버 등의 전자 기기와 함께 사용하기에 적합한 공지의 단말 장치, 컴퓨팅 시스템, 환경 및/또는 구성의 예로는 퍼스널 컴퓨터 시스템, 서버 컴퓨터 시스템, 씬 클라이언트(thin client), 씩 클라이언트(thick client), 휴대용 또는 랩톱 디바이스, 마이크로 프로세서 베이스의 시스템, 셋톱 박스, 프로그래머블 소비자용 전자 기기, 네트워크 PC, 소형 컴퓨터 시스템, 대형 컴퓨터 시스템 및 상기 시스템 중 어느 것을 포함하는 분산형 클라우드 컴퓨팅 기술 환경 등을 포함하지만, 이들에 한정되지 않는다.
단말 장치, 컴퓨터 시스템, 서버 등의 전자 기기는 컴퓨터 시스템에 의해 실행되는 컴퓨터 시스템 실행 가능 명령(예를 들면, 프로그램 모듈)의 일반적인 콘텍스트로 기술할 수 있다. 통상, 프로그램 모듈은 특정 태스크를 실행하거나, 또는 특정 추상 데이터형을 실현하는 루틴, 프로그램, 목표(target) 프로그램, 컴포넌트, 로직, 데이터 구조 등을 포함해도 된다. 컴퓨터 시스템/서버는 분산형 클라우드 컴퓨팅 환경에서 실시되어도 된다. 분산형 클라우드 컴퓨팅 환경에서 태스크는 통신 네트워크를 통해 링크되는 원격 처리 기기에 의해 실행된다. 분산형 클라우드 컴퓨팅 환경에서 프로그램 모듈은 기억 기기를 포함하는 로컬 또는 리모트 컴퓨팅 시스템의 기억 매체에 존재해도 된다.
도 1은 본 발명의 목표 검출 방법의 일 실시예의 흐름도이다. 도 1에 나타내는 바와 같이, 상기 실시예의 목표 검출 방법은 이하의 조작을 포함한다.
조작(102)에서, 뉴럴 네트워크에 의해 템플릿 프레임과 검출 프레임의 특징을 각각 추출한다.
여기서, 템플릿 프레임은 목표 대상물의 검출 프레임의 이미지로서, 템플릿 프레임 이미지의 크기가 검출 프레임보다 작고, 검출 프레임은 목표 대상물의 검출을 행하는 현재 프레임 또는 현재 프레임에서의 목표 대상물이 존재 가능한 영역 이미지이다. 검출 프레임이 목표 대상물의 검출을 행하는 현재 프레임에서의 목표 대상물이 존재 가능한 영역 이미지인 경우, 본 발명의 각 실시예의 일 실시형태에서는 상기 영역 이미지의 크기가 템플릿 프레임의 이미지보다 크고, 예를 들면, 상기 영역 이미지는 템플릿 프레임의 이미지의 중심점을 중심점으로 하여, 크기가 템플릿 프레임 이미지의 크기의 2-4배여도 된다.
본 발명의 각 실시예의 일 실시형태에서는 템플릿 프레임은 비디오 시퀀스에서 검출 타이밍이 검출 프레임보다 앞에 위치하고, 또한 목표 대상물의 검출 프레임이 특정된 프레임으로서, 비디오 시퀀스에서 목표 추적을 행하는 개시 프레임이어도 되고, 상기 개시 프레임의 비디오 프레임 시퀀스에서의 위치가 유연하게 설정되며, 예를 들면, 비디오 프레임 시퀀스에서의 선두 프레임 또는 임의의 중간 프레임이어도 된다. 검출 프레임은 목표 추적을 행하는 프레임으로서, 검출 프레임의 이미지에서 목표 대상물의 검출 프레임이 특정된 후, 상기 검출 프레임에서의 검출 프레임에 대응하는 이미지를 다음의 검출 프레임의 템플릿 프레임의 이미지로 해도 된다.
본 발명의 각 실시예의 일 실시형태에서는 상기 조작(102)에서 동일한 뉴럴 네트워크에 의해 템플릿 프레임과 검출 프레임의 특징을 각각 추출해도 되고, 동일한 구성을 갖는 별도의 뉴럴 네트워크에 의해 템플릿 프레임과 검출 프레임의 특징을 각각 추출해도 된다.
선택 가능한 일례에서, 상기 조작(102)은 프로세서에 의해 메모리에 기억된 대응 명령을 호출하여 실행되어도 되고, 프로세서에 의해 작동하는 뉴럴 네트워크에 의해 실행되어도 된다.
조작(104)에서, 템플릿 프레임의 특징에 기초하여 국소 영역 검출기의 분류 가중치와 회귀 가중치를 취득한다.
본 발명의 각 실시예의 일 실시형태에서는 제1 합성곱층에 의해 템플릿 프레임의 특징에 대해 합성곱 조작을 행하고, 합성곱 조작에 의해 취득된 제1 특징을 국소 영역 검출기의 분류 가중치로 하도록 해도 된다.
예를 들면, 선택 가능한 일례에서는 제1 합성곱층에 의해 템플릿 프레임의 특징의 채널수를 증가시키고, 채널수가 템플릿 프레임의 특징의 채널수의 2k(k는 0보다 큰 정수임)배가 되는 제1 특징을 취득하도록 국소 영역 검출기의 분류 가중치를 취득할 수 있다.
본 발명의 각 실시예의 일 실시형태에서는 제2 합성곱층에 의해 템플릿 프레임의 특징에 대해 합성곱 조작을 행하고, 합성곱 조작에 의해 취득된 제2 특징을 국소 영역 검출기의 회귀 가중치로 하도록 해도 된다.
예를 들면, 선택 가능한 일례에서는 제2 합성곱층에 의해 템플릿 프레임의 특징의 채널수를 증가시키고, 채널수가 템플릿 프레임의 특징의 채널수의 4k(k는 0보다 큰 정수임)배가 되는 제2 특징을 취득하도록 국소 영역 검출기의 회귀 가중치를 취득할 수 있다.
선택 가능한 일례에서, 상기 조작(104)은 프로세서에 의해 메모리에 기억된 대응 명령을 호출하여 실행되어도 되고, 각각 프로세서에 의해 작동하는 제1 합성곱층과 제2 합성곱층에 의해 실행되어도 된다.
조작(106)에서, 검출 프레임의 특징을 국소 영역 검출기에 입력하고, 국소 영역 검출기에서 출력되는 복수의 후보 프레임의 분류 결과와 회귀 결과를 취득한다.
여기서, 분류 결과는 각 후보 프레임의 각각의 목표 대상물의 검출 프레임인 확률값을 포함하고, 회귀 결과는 각 후보 프레임의 템플릿 프레임에 대응하는 검출 프레임에서의 편차량을 포함한다.
본 발명의 각 실시예의 선택 가능한 일례에서는 상기 복수의 후보 프레임은 검출 프레임의 각 위치에서의 K개의 후보 프레임을 포함해도 된다. 여기서, K가 미리 설정된 1보다 큰 정수이다. K개의 후보 프레임의 길이와 폭의 비율은 각각 상이하고, 예를 들면, K개의 후보 프레임의 길이와 폭의 비율은 1:1, 2:1, 2:1, 3:1, 1:3 등을 포함해도 된다. 분류 결과는 각 위치에서의 K개의 후보 프레임이 목표 대상물의 검출 프레임인 확률값을 나타내기 위한 것이다.
본 발명의 목표 검출 방법의 선택 가능한 일 실시예에서는 상기 조작(106)에 의해 복수의 후보 프레임이 목표 대상물의 검출 프레임인 확률값을 취득한 후, 추가로 상기 분류 결과에 대해 정규화 처리를 행하고, 각 후보 프레임이 목표 대상물의 검출 프레임인 확률값의 합을 1로 하는 것을 포함해도 된다. 이와 같이, 각 후보 프레임이 목표 대상물의 검출 프레임인지 여부를 용이하게 판단하는데 기여한다.
본 발명의 각 실시예의 선택 가능한 일례에서는 회귀 결과는 검출 프레임 이미지의 각 위치에서의 K개의 후보 프레임의 각각의 템플릿 프레임에서의 목표 대상물의 검출 프레임에서의 편차량을 포함하고, 이 편차량은 위치와 크기의 변화량을 포함해도 되고, 이 위치는 중심점 위치여도 되고, 기준 프레임의 4개의 정점의 위치 등이어도 된다.
제2 특징의 채널수가 템플릿 프레임의 특징의 채널수의 4k배가 되는 경우, 각 후보 프레임의 각각의 템플릿 프레임에서의 목표 대상물의 검출 프레임에서의 편차량은 예를 들면, 중심점의 위치의 가로 좌표의 편차량(dx), 중심점의 위치의 세로 좌표의 편차량(dy), 높이의 변화량(dh) 및 폭의 변화량(dw)을 포함해도 된다.
본 발명의 각 실시예의 일 실시형태에서는 상기 조작(106)에는 분류 가중치를 사용하여 검출 프레임의 특징에 대해 합성곱 조작을 행하고, 복수의 후보 프레임의 분류 결과를 취득하는 것과, 회귀 가중치를 사용하여 검출 프레임의 특징에 대해 합성곱 조작을 행하고, 복수의 후보 프레임의 회귀 결과를 취득하는 것을 포함해도 된다.
선택 가능한 일례에서, 상기 조작(106)은 프로세서에 의해 메모리에 기억된 대응 명령을 호출하여 실행되어도 되고, 프로세서에 의해 작동하는 국소 영역 검출기에 의해 실행되어도 된다.
조작(108)에서, 국소 영역 검출기에서 출력되는 복수의 후보 프레임의 분류 결과와 회귀 결과에 의해, 검출 프레임에서의 목표 대상물의 검출 프레임을 취득한다.
선택 가능한 일례에서, 상기 조작(108)은 프로세서에 의해 메모리에 기억된 대응 명령을 호출하여 실행되어도 되고, 프로세서에 의해 작동하는 취득 유닛에 의해 실행되어도 된다.
본 발명의 상기 실시예의 목표 검출 방법에 의하면, 뉴럴 네트워크에 의해 템플릿 프레임과 검출 프레임의 특징을 각각 추출하고, 템플릿 프레임의 특징에 기초하여 국소 영역 검출기의 분류 가중치와 회귀 가중치를 취득하고, 검출 프레임의 특징을 국소 영역 검출기에 입력하고, 국소 영역 검출기에서 출력되는 복수의 후보 프레임의 분류 결과와 회귀 결과를 취득하고, 국소 영역 검출기에서 출력되는 복수의 후보 프레임의 분류 결과와 회귀 결과에 의해, 검출 프레임에서의 목표 대상물의 검출 프레임을 취득한다. 본 발명의 실시예에서는 동일한 뉴럴 네트워크 또는 동일한 구성을 갖는 뉴럴 네트워크에 의해 동일한 목표 대상물의 유사 특징을 보다 잘 추출할 수 있고, 상이한 프레임에서 추출된 목표 대상물의 특징 변화가 작고, 검출 프레임에서의 목표 대상물의 검출 결과의 정확성을 높이는데 기여한다. 또한, 템플릿 프레임의 특징에 기초하여 국소 영역 검출기의 분류 가중치와 회귀 가중치를 취득함으로써, 국소 영역 검출기는 검출 프레임의 복수의 후보 프레임의 분류 결과와 회귀 결과를 취득하고, 추가로 검출 프레임에서의 상기 목표 대상물의 검출 프레임을 취득할 수 있고, 목표 대상물의 위치와 크기의 변화를 보다 잘 추정할 수 있고, 검출 프레임에서의 목표 대상물의 위치를 보다 정확하게 확정할 수 있고, 목표 추적의 속도나 정확성이 높아져 추적 효과가 우수하고, 속도가 빠르다.
본 발명의 실시예에서는 템플릿 프레임에 기초하여 국소 영역 검출기는 검출 프레임에서 대량의 후보 프레임을 고속으로 생성하고, 또한 검출 프레임의 각 위치에서의 K개의 후보 프레임의 각각의 템플릿 프레임에서의 목표 대상물의 검출 프레임에서의 편차량을 취득할 수 있고, 목표 대상물의 위치와 크기의 변화를 보다 잘 추정할 수 있고, 검출 프레임에서의 목표 대상물의 위치를 보다 정확하게 확정할 수 있고, 목표 추적의 속도나 정확성이 높아져 추적 효과가 우수하고, 속도가 빠르다.
본 발명의 목표 검출 방법의 다른 실시예에서는,
뉴럴 네트워크에 의해, 비디오 시퀀스에서 시계열적으로 검출 프레임 뒤에 위치하는 하나 이상의 다른 검출 프레임의 특징을 추출하는 것과,
상기 하나 이상의 다른 검출 프레임의 특징을 국소 영역 검출기에 순서대로 입력하고, 국소 영역 검출기에서 출력되는 상기 하나 이상의 다른 검출 프레임에서의 복수의 후보 프레임 및 각 후보 프레임의 분류 결과와 회귀 결과를 순서대로 취득하고, 즉, 순서대로 상기 하나 이상의 다른 검출 프레임의 특징에 대해 조작(106)을 실행하는 것과,
상기 하나 이상의 다른 검출 프레임의 복수의 후보 프레임의 분류 결과와 회귀 결과에 의해, 상기 하나 이상의 다른 검출 프레임에서의 목표 대상물의 검출 프레임을 순서대로 취득하고, 즉, 순서대로 상기 하나 이상의 다른 검출 프레임의 복수의 후보 프레임의 분류 결과와 회귀 결과에 대해 조작(108)을 실행하는 것을 추가로 포함해도 된다.
본 발명의 목표 검출 방법의 또 하나의 실시예에서는 검출 프레임이 목표 대상물의 검출을 행하는 현재 프레임에서의 목표 대상물이 존재 가능한 영역 이미지인 경우, 추가로 미리 템플릿 프레임의 중심점을 중심점으로 하여, 현재 프레임에서 길이 및/또는 폭이 각각 템플릿 프레임의 이미지의 길이 및/또는 폭보다 큰 영역 이미지를 잘라 내고 검출 프레임으로 하는 것을 포함해도 된다.
도 2는 본 발명의 목표 검출 방법의 다른 실시예의 흐름도이다. 도 2에 나타내는 바와 같이, 상기 실시예의 목표 검출 방법은 이하의 조작을 포함한다.
조작(202)에서, 뉴럴 네트워크에 의해 템플릿 프레임과 검출 프레임의 특징을 각각 추출한다.
여기서, 템플릿 프레임은 목표 대상물의 검출 프레임의 이미지로서, 템플릿 프레임 이미지의 크기가 검출 프레임보다 작고, 검출 프레임은 목표 대상물의 검출을 행하는 현재 프레임 또는 현재 프레임에서의 목표 대상물이 존재 가능한 영역 이미지이다. 템플릿 프레임은 비디오 시퀀스에서 검출 타이밍이 검출 프레임보다 앞에 위치하고, 또한 목표 대상물의 검출 프레임이 특정된 프레임이다.
본 발명의 각 실시예의 일 실시형태에서는 상기 조작(202)에서 동일한 뉴럴 네트워크에 의해 템플릿 프레임과 검출 프레임의 특징을 각각 추출해도 되고, 동일한 구성을 갖는 별도의 뉴럴 네트워크에 의해 템플릿 프레임과 검출 프레임의 특징을 각각 추출해도 된다.
선택 가능한 일례에서, 상기 조작(202)은 프로세서에 의해 메모리에 기억된 대응 명령을 호출하여 실행되어도 되고, 프로세서에 의해 작동하는 뉴럴 네트워크에 의해 실행되어도 된다.
조작(204)에서, 제3 합성곱층에 의해 검출 프레임의 특징에 대해 합성곱 조작을 행하고, 채널수가 검출 프레임의 특징의 채널수와 동일한 제3 특징을 취득하고, 제4 합성곱층에 의해 검출 프레임의 특징에 대해 합성곱 조작을 행하고, 채널수가 검출 프레임의 특징의 채널수와 동일한 제4 특징을 취득한다.
선택 가능한 일례에서, 상기 조작(204)은 프로세서에 의해 메모리에 기억된 대응 명령을 호출하여 실행되어도 되고, 각각 프로세서에 의해 작동하는 제3 합성곱층과 제4 합성곱층에 의해 실행되어도 된다.
조작(206)에서, 템플릿 프레임의 특징에 기초하여 국소 영역 검출기의 분류 가중치와 회귀 가중치를 취득한다.
본 발명의 각 실시예의 일 실시형태에서는 제1 합성곱층에 의해 템플릿 프레임의 특징에 대해 합성곱 조작을 행하고, 합성곱 조작에 의해 취득된 제1 특징을 국소 영역 검출기의 분류 가중치로 하도록 해도 된다.
본 발명의 각 실시예의 일 실시형태에서는 제2 합성곱층에 의해 템플릿 프레임의 특징에 대해 합성곱 조작을 행하고, 합성곱 조작에 의해 취득된 제2 특징을 국소 영역 검출기의 회귀 가중치로 하도록 해도 된다.
여기서, 조작(206과 204)은 실행 순서가 한정되지 않고, 동시에 실행되어도 되고, 임의의 선후 순서로 실행되어도 된다.
선택 가능한 일례에서, 상기 조작(206)은 프로세서에 의해 메모리에 기억된 대응 명령을 호출하여 실행되어도 되고, 각각 프로세서에 의해 작동하는 제1 합성곱층과 제2 합성곱층에 의해 실행되어도 된다.
조작(208)에서, 분류 가중치를 사용하여 제3 특징에 대해 합성곱 조작을 행하고, 복수의 후보 프레임의 분류 결과를 취득하고, 회귀 가중치를 사용하여 제4 특징에 대해 합성곱 조작을 행하고, 복수의 후보 프레임의 회귀 결과를 취득한다.
여기서, 분류 결과는 각 후보 프레임의 각각의 목표 대상물의 검출 프레임인 확률값을 포함하고, 회귀 결과는 각 후보 프레임의 템플릿 프레임에 대응하는 검출 프레임에서의 편차량을 포함한다.
선택 가능한 일례에서, 상기 조작(208)은 프로세서에 의해 메모리에 기억된 대응 명령을 호출하여 실행되어도 되고, 프로세서에 의해 작동하는 국소 영역 검출기에 의해 실행되어도 된다.
조작(210)에서, 국소 영역 검출기에서 출력되는 복수의 후보 프레임의 분류 결과와 회귀 결과에 의해, 검출 프레임에서의 목표 대상물의 검출 프레임을 취득한다.
선택 가능한 일례에서, 상기 조작(210)은 프로세서에 의해 메모리에 기억된 대응 명령을 호출하여 실행되어도 되고, 프로세서에 의해 작동하는 취득 유닛에 의해 실행되어도 된다.
본 발명의 각 실시예의 일 실시형태에서는 조작(108 또는 210)에는 분류 결과와 회귀 결과에 의해 복수의 후보 프레임에서 하나의 후보 프레임을 선택하고, 선택된 후보 프레임의 편차량에 의해 선택된 후보 프레임을 회귀시키고, 검출 프레임에서의 목표 대상물의 검출 프레임을 취득하는 것을 포함해도 된다.
선택 가능한 일례에서는 분류 결과와 회귀 결과에 의해 복수의 후보 프레임에서 하나의 후보 프레임을 선택할 때, 분류 결과와 회귀 결과의 가중치 계수에 의해 복수의 후보 프레임에서 하나의 후보 프레임을 선택하고, 예를 들면, 분류 결과와 회귀 결과의 가중치 계수에 의해, 각각 각 후보 프레임의 확률값과 분류 결과의 가중치 계수의 곱과, 편차량과 회귀 결과의 가중치 계수의 곱의 합에 기초하여 종합적 스코어를 산출하고, 상기 복수의 후보 프레임의 종합적 스코어에 의해 상기 복수의 후보 프레임에서 하나의 후보 프레임을 선택하도록 실현할 수 있다.
다른 선택 가능한 예에서는 상기 각 실시예에 의해 회귀 결과를 취득한 후, 추가로 회귀 결과의 위치와 크기의 변화량에 의해 후보 프레임의 확률값을 조정하는 것을 포함해도 된다. 예를 들면, 회귀 결과의 위치와 크기의 변화량에 의해 후보 프레임의 확률값을 조정한다. 예를 들면, 위치의 변화량이 크고(즉, 위치 이동이 크고), 크기의 변화량이 큰(즉, 형상 변화가 큰) 후보 프레임의 확률값에 대해 페널티를 부여하여, 그 확률값을 낮게 한다. 이에 대응하여, 이 예에서는 분류 결과와 회귀 결과에 의해 복수의 후보 프레임에서 하나의 후보 프레임을 선택할 때, 조정 후의 분류 결과에 의해 복수의 후보 프레임에서 하나의 후보 프레임을 선택하고, 예를 들면, 조정 후의 확률값에 의해 복수의 후보 프레임에서 확률값이 가장 높은 후보 프레임을 선택하도록 실현할 수 있다.
선택 가능한 일례에서 회귀 결과의 위치와 크기의 변화량에 의해 후보 프레임의 확률값을 조정하는 상기 조작은 프로세서에 의해 메모리에 기억된 대응 명령을 호출하여 실행되어도 되고, 프로세서에 의해 작동하는 조정 유닛에 의해 실행되어도 된다.
도 3은 본 발명의 목표 검출 네트워크의 트레이닝 방법의 일 실시예의 흐름도이다. 본 발명의 실시예의 목표 검출 네트워크는 본 발명의 실시예의 뉴럴 네트워크, 제1 합성곱층 및 제2 합성곱층을 포함한다. 도 3에 나타내는 바와 같이, 상기 실시예의 트레이닝 방법은 이하의 조작을 포함한다.
조작(302)에서, 뉴럴 네트워크에 의해 템플릿 프레임과 검출 프레임의 특징을 각각 추출한다.
여기서, 템플릿 프레임은 목표 대상물의 검출 프레임의 이미지로서, 템플릿 프레임의 이미지 크기가 검출 프레임보다 작고, 검출 프레임은 목표 대상물의 검출을 행하는 현재 프레임 또는 현재 프레임에서의 목표 대상물이 존재 가능한 영역 이미지이다. 템플릿 프레임은 비디오 시퀀스에서 검출 타이밍이 검출 프레임보다 앞에 위치하고, 또한 목표 대상물의 검출 프레임이 특정된 프레임이다.
본 발명의 각 실시예의 일 실시형태에서는 상기 조작(302)에서 동일한 뉴럴 네트워크에 의해 템플릿 프레임과 검출 프레임의 특징을 각각 추출해도 되고, 동일한 구성을 갖는 별도의 뉴럴 네트워크에 의해 템플릿 프레임과 검출 프레임의 특징을 각각 추출해도 된다.
선택 가능한 일례에서, 상기 조작(302)은 프로세서에 의해 메모리에 기억된 대응 명령을 호출하여 실행되어도 되고, 프로세서에 의해 작동하는 뉴럴 네트워크에 의해 실행되어도 된다.
조작(304)에서, 제1 합성곱층에 의해 템플릿 프레임의 특징에 대해 합성곱 조작을 행하고, 합성곱 조작에 의해 취득된 제1 특징을 국소 영역 검출기의 분류 가중치로 하고, 제2 합성곱층에 의해 템플릿 프레임의 특징에 대해 합성곱 조작을 행하고, 합성곱 조작에 의해 취득된 제2 특징을 국소 영역 검출기의 회귀 가중치로 한다.
선택 가능한 일례에서, 상기 조작(304)은 프로세서에 의해 메모리에 기억된 대응 명령을 호출하여 실행되어도 되고, 각각 프로세서에 의해 작동하는 제1 합성곱층과 제2 합성곱층에 의해 실행되어도 된다.
조작(306)에서, 검출 프레임의 특징을 국소 영역 검출기에 입력하고, 국소 영역 검출기에서 출력되는 복수의 후보 프레임의 분류 결과와 회귀 결과를 취득한다.
여기서, 분류 결과는 각 후보 프레임의 각각의 목표 대상물의 검출 프레임인 확률값을 포함하고, 회귀 결과는 각 후보 프레임의 템플릿 프레임에 대응하는 검출 프레임에서의 편차량을 포함한다.
본 발명의 각 실시예의 일 실시형태에서는 상기 조작(306)은 분류 가중치를 사용하여 검출 프레임의 특징에 대해 합성곱 조작을 행하고, 복수의 후보 프레임의 분류 결과를 취득하는 것과, 회귀 가중치를 사용하여 검출 프레임의 특징에 대해 합성곱 조작을 행하고, 복수의 후보 프레임의 회귀 결과를 취득하는 것을 포함해도 된다.
선택 가능한 일례에서, 상기 조작(306)은 프로세서에 의해 메모리에 기억된 대응 명령을 호출하여 실행되어도 되고, 프로세서에 의해 작동하는 영역 검출기에 의해 실행되어도 된다.
조작(308)에서, 국소 영역 검출기에서 출력되는 복수의 후보 프레임의 분류 결과와 회귀 결과에 의해, 검출 프레임에서의 목표 대상물의 검출 프레임을 취득한다.
선택 가능한 일례에서, 상기 조작(308)은 프로세서에 의해 메모리에 기억된 대응 명령을 호출하여 실행되어도 되고, 프로세서에 의해 작동하는 취득 유닛에 의해 실행되어도 된다.
조작(310)에서, 취득된 검출 프레임에서의 목표 대상물의 검출 프레임을 예측 검출 프레임으로 하고, 검출 프레임의 라벨링 정보와 예측 검출 프레임에 기초하여 뉴럴 네트워크, 제1 합성곱층 및 제2 합성곱층을 트레이닝한다.
선택 가능한 일례에서, 상기 조작(310)은 프로세서에 의해 메모리에 기억된 대응 명령을 호출하여 실행되어도 되고, 프로세서에 의해 작동하는 트레이닝 유닛에 의해 실행되어도 된다.
본 발명의 상기 실시예의 목표 검출 네트워크의 트레이닝 방법에 의하면, 뉴럴 네트워크에 의해 템플릿 프레임과 검출 프레임의 특징을 각각 추출하고, 템플릿 프레임의 특징에 기초하여 국소 영역 검출기의 분류 가중치와 회귀 가중치를 취득하고, 검출 프레임의 특징을 국소 영역 검출기에 입력하고, 국소 영역 검출기에서 출력되는 복수의 후보 프레임의 분류 결과와 회귀 결과를 취득하고, 국소 영역 검출기에서 출력되는 복수의 후보 프레임의 분류 결과와 회귀 결과에 의해, 검출 프레임에서의 목표 대상물의 검출 프레임을 취득하고, 검출 프레임의 라벨링 정보와 예측 검출 프레임에 기초하여 목표 검출 네트워크를 트레이닝한다. 본 발명의 실시예에 기초하여 트레이닝된 목표 검출 네트워크에 의하면, 동일한 뉴럴 네트워크 또는 동일한 구성을 갖는 뉴럴 네트워크에 의해 동일한 목표 대상물의 유사 특징을 보다 잘 추출할 수 있고, 상이한 프레임에서 추출된 목표 대상물의 특징 변화가 작고, 검출 프레임에서의 목표 대상물의 검출 결과의 정확성을 높이는데 기여한다. 또한, 템플릿 프레임의 특징에 기초하여 국소 영역 검출기의 분류 가중치와 회귀 가중치를 취득함으로써, 국소 영역 검출기는 검출 프레임의 복수의 후보 프레임의 분류 결과와 회귀 결과를 취득하고, 추가로 검출 프레임에서의 상기 목표 대상물의 검출 프레임을 취득할 수 있고, 목표 대상물의 위치와 크기의 변화를 보다 잘 추정할 수 있고, 검출 프레임에서의 목표 대상물의 위치를 보다 정확하게 확정할 수 있고, 목표 추적의 속도나 정확성이 높아져 추적 효과가 우수하고, 속도가 빠르다.
본 발명의 트레이닝 방법의 다른 실시예에서는 뉴럴 네트워크에 의해 비디오 시퀀스에서 시계열적으로 검출 프레임 뒤에 위치하는 하나 이상의 다른 검출 프레임의 특징을 추출하는 것과,
하나 이상의 다른 검출 프레임의 특징을 국소 영역 검출기에 순서대로 입력하고, 국소 영역 검출기에서 출력되는 하나 이상의 다른 검출 프레임에서의 복수의 후보 프레임 및 각 후보 프레임의 분류 결과와 회귀 결과를 순서대로 취득하고, 즉, 순서대로 하나 이상의 다른 검출 프레임의 특징에 대해 조작(306)을 실행하는 것과,
하나 이상의 다른 검출 프레임의 복수의 후보 프레임의 분류 결과와 회귀 결과에 의해, 하나 이상의 다른 검출 프레임에서의 목표 대상물의 검출 프레임을 순서대로 취득하고, 즉, 순서대로 하나 이상의 다른 검출 프레임의 복수의 후보 프레임의 분류 결과와 회귀 결과에 대해 조작(308)을 실행하는 것을 추가로 포함해도 된다.
본 발명의 트레이닝 방법의 또 하나의 실시예에서는 검출 프레임이 목표 대상물의 검출을 행하는 현재 프레임에서의 목표 대상물이 존재 가능한 영역 이미지인 경우, 미리 템플릿 프레임의 중심점을 중심점으로 하여, 현재 프레임에서 길이 및/또는 폭이 각각 템플릿 프레임의 이미지의 길이 및/또는 폭보다 큰 영역 이미지를 잘라 내고 검출 프레임으로 하는 것을 추가로 포함해도 된다.
도 4는 본 발명의 목표 검출 네트워크의 트레이닝 방법의 다른 실시예의 흐름도이다. 본 발명의 실시예의 목표 검출 네트워크는 본 발명의 실시예의 뉴럴 네트워크, 제1 합성곱층, 제2 합성곱층, 제3 합성곱층 및 제4 합성곱층을 포함한다. 도 4에 나타내는 바와 같이, 상기 실시예의 트레이닝 방법은 이하의 조작을 포함한다.
조작(402)에서, 뉴럴 네트워크에 의해 템플릿 프레임과 검출 프레임의 특징을 각각 추출한다.
여기서, 템플릿 프레임은 목표 대상물의 검출 프레임의 이미지로서, 템플릿 프레임의 이미지 크기가 검출 프레임보다 작고, 검출 프레임은 목표 대상물의 검출을 행하는 현재 프레임 또는 현재 프레임에서의 목표 대상물이 존재 가능한 영역 이미지이다. 템플릿 프레임은 비디오 시퀀스에서 검출 타이밍이 검출 프레임보다 앞에 위치하고, 또한 목표 대상물의 검출 프레임이 특정된 프레임이다.
본 발명의 각 실시예의 일 실시형태에서는 상기 조작(402)에서 동일한 뉴럴 네트워크에 의해 템플릿 프레임과 검출 프레임의 특징을 각각 추출해도 되고, 동일한 구성을 갖는 별도의 뉴럴 네트워크에 의해 템플릿 프레임과 검출 프레임의 특징을 각각 추출해도 된다.
선택 가능한 일례에서, 상기 조작(402)은 프로세서에 의해 메모리에 기억된 대응 명령을 호출하여 실행되어도 되고, 프로세서에 의해 작동하는 뉴럴 네트워크에 의해 실행되어도 된다.
조작(404)에서, 제3 합성곱층에 의해 검출 프레임의 특징에 대해 합성곱 조작을 행하고, 채널수가 검출 프레임의 특징의 채널수와 동일한 제3 특징을 취득하고, 제4 합성곱층에 의해 검출 프레임의 특징에 대해 합성곱 조작을 행하고, 채널수가 검출 프레임의 특징의 채널수와 동일한 제4 특징을 취득한다.
선택 가능한 일례에서, 상기 조작(404)은 프로세서에 의해 메모리에 기억된 대응 명령을 호출하여 실행되어도 되고, 각각 프로세서에 의해 작동하는 제3 합성곱층과 제4 합성곱층에 의해 실행되어도 된다.
조작(406)에서, 제1 합성곱층에 의해 템플릿 프레임의 특징에 대해 합성곱 조작을 행하고, 합성곱 조작에 의해 취득된 제1 특징을 국소 영역 검출기의 분류 가중치로 하고, 제2 합성곱층에 의해 템플릿 프레임의 특징에 대해 합성곱 조작을 행하고, 합성곱 조작에 의해 취득된 제2 특징을 국소 영역 검출기의 회귀 가중치로 한다.
여기서, 조작(406과 404)은 실행 순서가 한정되지 않고, 동시에 실행되어도 되고, 임의의 선후 순서로 실행되어도 된다.
선택 가능한 일례에서, 상기 조작(406)은 프로세서에 의해 메모리에 기억된 대응 명령을 호출하여 실행되어도 되고, 각각 프로세서에 의해 작동하는 제1 합성곱층과 제2 합성곱층에 의해 실행되어도 된다.
조작(408)에서, 분류 가중치를 사용하여 제3 특징에 대해 합성곱 조작을 행하고, 복수의 후보 프레임의 분류 결과를 취득하고, 회귀 가중치를 사용하여 제4 특징에 대해 합성곱 조작을 행하고, 복수의 후보 프레임의 회귀 결과를 취득한다.
여기서, 분류 결과는 각 후보 프레임의 각각의 목표 대상물의 검출 프레임인 확률값을 포함하고, 회귀 결과는 각 후보 프레임의 템플릿 프레임에 대응하는 검출 프레임에서의 편차량을 포함한다.
선택 가능한 일례에서, 상기 조작(408)은 프로세서에 의해 메모리에 기억된 대응 명령을 호출하여 실행되어도 되고, 프로세서에 의해 작동하는 국소 영역 검출기에 의해 실행되어도 된다.
조작(410)에서, 국소 영역 검출기에서 출력되는 복수의 후보 프레임의 분류 결과와 회귀 결과에 의해, 검출 프레임에서의 목표 대상물의 검출 프레임을 취득한다.
선택 가능한 일례에서, 상기 조작(410)은 프로세서에 의해 메모리에 기억된 대응 명령을 호출하여 실행되어도 되고, 프로세서에 의해 작동하는 제1 특징 추출 유닛(701)에 의해 실행되어도 된다.
조작(412)에서, 취득된 검출 프레임에서의 목표 대상물의 검출 프레임을 예측 검출 프레임으로 하고, 라벨링된 검출 프레임에서의 목표 대상물의 검출 프레임의 위치 및 크기와 예측 검출 프레임의 위치 및 크기의 차에 의해, 뉴럴 네트워크, 제1 합성곱층 및 제2 합성곱층의 가중치를 조정한다.
선택 가능한 일례에서, 상기 조작(412)은 프로세서에 의해 메모리에 기억된 대응 명령을 호출하여 실행되어도 되고, 프로세서에 의해 작동하는 트레이닝 유닛에 의해 실행되어도 된다.
본 발명의 각 실시예의 일 실시형태에서는 조작(308 또는 410)에는 분류 결과와 회귀 결과에 의해 복수의 후보 프레임에서 하나의 후보 프레임을 선택하고, 선택된 후보 프레임의 편차량에 의해 선택된 후보 프레임을 회귀시키고, 검출 프레임에서의 목표 대상물의 검출 프레임을 취득하는 것을 포함해도 된다.
선택 가능한 일례에서는 분류 결과와 회귀 결과에 의해 복수의 후보 프레임에서 하나의 후보 프레임을 선택할 때, 분류 결과와 회귀 결과의 가중치 계수에 의해 복수의 후보 프레임에서 하나의 후보 프레임을 선택하고, 예를 들면, 분류 결과와 회귀 결과의 가중치 계수에 의해, 각각 각 후보 프레임의 확률값과 분류 결과의 가중치 계수의 곱과, 편차량과 회귀 결과의 가중치 계수의 곱의 합에 기초하여 종합적 스코어를 산출하고, 상기 복수의 후보 프레임의 종합적 스코어에 의해 상기 복수의 후보 프레임에서 확률값이 높고 편차량이 작은 후보 프레임을 선택하도록 실현할 수 있다.
다른 선택 가능한 예에서는 상기 각 실시예에 의해 회귀 결과를 취득한 후, 추가로 회귀 결과의 위치와 크기의 변화량에 의해 후보 프레임의 확률값을 조정하는 것을 포함해도 된다. 예를 들면, 회귀 결과의 위치와 크기의 변화량에 의해 후보 프레임의 확률값을 조정한다. 이에 대응하여, 이 예에서는 분류 결과와 회귀 결과에 의해 복수의 후보 프레임에서 하나의 후보 프레임을 선택할 때, 조정 후의 분류 결과에 의해 복수의 후보 프레임에서 하나의 후보 프레임을 선택하고, 예를 들면, 조정 후의 확률값에 의해 복수의 후보 프레임에서 확률값이 가장 높은 후보 프레임을 선택하도록 실현할 수 있다.
선택 가능한 일례에서, 상기 회귀 결과의 위치와 크기의 변화량에 의해 후보 프레임의 확률값을 조정하는 조작은 프로세서에 의해 메모리에 기억된 대응 명령을 호출하여 실행되어도 되고, 프로세서에 의해 작동하는 조정 유닛에 의해 실행되어도 된다.
본 발명의 각 실시예의 일 실시형태에서는 조작(308 또는 410)에는 분류 결과와 회귀 결과에 의해 복수의 후보 프레임에서 하나의 후보 프레임을 선택하고, 선택된 후보 프레임의 편차량에 의해 선택된 후보 프레임을 회귀시키고, 검출 프레임에서의 목표 대상물의 검출 프레임을 취득하는 것을 포함해도 된다.
선택 가능한 일례에서는 분류 결과와 회귀 결과에 의해 복수의 후보 프레임에서 하나의 후보 프레임을 선택할 때, 분류 결과와 회귀 결과의 가중치 계수에 의해 복수의 후보 프레임에서 하나의 후보 프레임을 선택하고, 예를 들면, 분류 결과와 회귀 결과의 가중치 계수에 의해, 각각 각 후보 프레임의 확률값과 편차량에 기초하여 종합적 스코어를 산출하고, 상기 복수의 후보 프레임의 종합적 스코어에 의해 상기 복수의 후보 프레임에서 하나의 후보 프레임을 선택하도록 실현할 수 있다.
다른 선택 가능한 예에서는 상기 각 실시예에 의해 회귀 결과를 취득한 후, 추가로 회귀 결과의 위치와 크기의 변화량에 의해 후보 프레임의 확률값을 조정하는 것을 포함해도 된다. 예를 들면, 회귀 결과의 위치와 크기의 변화량에 의해 후보 프레임의 확률값을 조정한다. 예를 들면, 위치의 변화량이 크고(즉, 위치 이동이 크고), 크기의 변화량이 큰(즉, 형상 변화가 큰) 후보 프레임의 확률값에 대해 페널티를 부여하여, 그 확률값을 낮게 한다. 이에 대응하여, 이 예에서는 분류 결과와 회귀 결과에 의해 복수의 후보 프레임에서 하나의 후보 프레임을 선택할 때, 조정 후의 분류 결과에 의해 복수의 후보 프레임에서 하나의 후보 프레임을 선택하고, 예를 들면, 조정 후의 확률값에 의해 복수의 후보 프레임에서 확률값이 가장 높은 후보 프레임을 선택하도록 실현할 수 있다.
본 발명의 각 실시예에서는 국소 영역 검출기는 제3 합성곱층, 제4 합성곱층 및 2개의 합성곱 조작 유닛을 포함해도 된다. 여기서, 국소 영역 검출기와 제1 합성곱층, 제2 합성곱층이 결합되어 형성된 국소 영역 검출기는 리전 프로포절 네트워크(Region Proposal Network)라고 불러도 된다.
본 발명의 실시예에서 제공되는 목표 검출 방법, 목표 검출 네트워크의 트레이닝 방법 중 어느 하나는 데이터 처리 능력을 갖는 어떠한 적절한 기기에 의해 실행되어도 되고, 기기는 단말 장치와 서버 등을 포함하지만, 이들에 한정되지 않는다. 또한, 본 발명의 실시예에서 제공되는 목표 검출 방법, 목표 검출 네트워크의 트레이닝 방법 중 어느 하나는 프로세서에 의해 실행되어도 되고, 예를 들면, 프로세서는 메모리에 기억된 대응 명령을 호출함으로써 본 발명의 실시예에 따른 목표 검출 방법, 목표 검출 네트워크의 트레이닝 방법 중 어느 하나를 실행한다. 이하, 상세한 설명을 생략한다.
당업자이면 상기 방법의 실시예를 실현하는 전체 또는 일부 단계는 프로그램에 의해 관련 하드웨어에 명령을 내림으로써 완성할 수 있음을 이해해야 하고, 상기 프로그램은 ROM, RAM, 자기 디스크 또는 광디스크 등의 프로그램 코드를 기억 가능한 다양한 매체를 포함하는 컴퓨터 판독 가능 기억 매체에 기억 가능하고, 당해 프로그램이 실행되면, 상기 방법의 실시예를 포함하는 단계를 실행한다.
도 5는 본 발명의 목표 검출 장치의 일 실시예의 구성 모식도이다. 본 발명의 각 실시예의 목표 검출 장치는 본 발명의 상기 각 목표 검출 방법의 실시예를 실현하기 위해 이용 가능하다. 도 5에 나타내는 바와 같이, 상기 실시예의 목표 검출 장치는 뉴럴 네트워크, 제1 합성곱층, 제2 합성곱층, 국소 영역 검출기 및 취득 장치를 포함한다.
뉴럴 네트워크는 검출 프레임과, 목표 대상물의 검출 프레임의 이미지로서, 이미지의 크기가 검출 프레임보다 작은 템플릿 프레임의 특징을 각각 추출하기 위해 사용된다. 여기서, 템플릿 프레임은 목표 대상물의 검출 프레임의 이미지로서, 템플릿 프레임의 이미지의 크기가 검출 프레임보다 작고, 검출 프레임은 목표 대상물의 검출을 행하는 현재 프레임 또는 현재 프레임에서의 목표 대상물이 존재 가능한 영역 이미지이다. 템플릿 프레임은 비디오 시퀀스에서 검출 타이밍이 검출 프레임보다 앞에 위치하고, 또한 목표 대상물의 검출 프레임이 특정된 프레임이다. 템플릿 프레임과 검출 프레임의 특징을 추출하는 뉴럴 네트워크는 동일한 뉴럴 네트워크여도 되고, 동일한 구성을 갖는 별도의 뉴럴 네트워크여도 된다.
제1 합성곱층은 상기 템플릿 프레임의 특징에 대해 합성곱 조작을 행하고, 합성곱 조작에 의해 취득된 제1 특징을 상기 국소 영역 검출기의 분류 가중치로 하기 위해 사용된다.
제2 합성곱층은 제2 합성곱층에 의해 상기 템플릿 프레임의 특징에 대해 합성곱 조작을 행하고, 합성곱 조작에 의해 취득된 제2 특징을 상기 국소 영역 검출기의 회귀 가중치로 하기 위해 사용된다.
국소 영역 검출기는 검출 프레임의 특징에 의해 복수의 후보 프레임의 분류 결과와 회귀 결과를 출력하기 위해 사용되고, 여기서, 분류 결과는 각 후보 프레임의 각각의 목표 대상물의 검출 프레임인 확률값을 포함하고, 회귀 결과는 각 후보 프레임의 템플릿 프레임에 대응하는 검출 프레임에서의 편차량을 포함한다.
취득 유닛은 국소 영역 검출기에서 출력되는 복수의 후보 프레임의 분류 결과와 회귀 결과에 의해, 검출 프레임에서의 목표 대상물의 검출 프레임을 취득하기 위해 사용된다.
본 발명의 상기 실시예의 목표 검출 장치에 의하면, 뉴럴 네트워크에 의해 템플릿 프레임과 검출 프레임의 특징을 각각 추출하고, 템플릿 프레임의 특징에 기초하여 국소 영역 검출기의 분류 가중치와 회귀 가중치를 취득하고, 검출 프레임의 특징을 국소 영역 검출기에 입력하고, 국소 영역 검출기에서 출력되는 복수의 후보 프레임의 분류 결과와 회귀 결과를 취득하고, 국소 영역 검출기에서 출력되는 복수의 후보 프레임의 분류 결과와 회귀 결과에 의해, 검출 프레임에서의 목표 대상물의 검출 프레임을 취득한다. 본 발명의 실시예에서는 동일한 뉴럴 네트워크 또는 동일한 구성을 갖는 뉴럴 네트워크에 의해 동일한 목표 대상물의 유사 특징을 보다 잘 추출할 수 있고, 상이한 프레임에서 추출된 목표 대상물의 특징 변화가 작고, 검출 프레임에서의 목표 대상물의 검출 결과의 정확성을 높이는데 기여한다. 또한, 템플릿 프레임의 특징에 기초하여 국소 영역 검출기의 분류 가중치와 회귀 가중치를 취득함으로써, 국소 영역 검출기는 검출 프레임의 복수의 후보 프레임의 분류 결과와 회귀 결과를 취득하고, 추가로 검출 프레임에서의 상기 목표 대상물의 검출 프레임을 취득할 수 있고, 목표 대상물의 위치와 크기의 변화를 보다 잘 추정할 수 있고, 검출 프레임에서의 목표 대상물의 위치를 보다 정확하게 확정할 수 있고, 목표 추적의 속도나 정확성이 높아져 추적 효과가 우수하고, 속도가 빠르다.
본 발명의 목표 검출 장치의 각 실시예의 일 실시형태에서는 국소 영역 검출기는 분류 가중치를 사용하여 검출 프레임의 특징에 대해 합성곱 조작을 행하고, 복수의 후보 프레임의 분류 결과를 취득하는 것과, 회귀 가중치를 사용하여 검출 프레임의 특징에 대해 합성곱 조작을 행하고, 복수의 후보 프레임의 회귀 결과를 취득하는 것에 사용된다.
검출 프레임이 목표 대상물의 검출을 행하는 현재 프레임에서의 목표 대상물이 존재 가능한 영역 이미지인 경우, 본 발명의 목표 검출 장치의 다른 실시예에서는 템플릿 프레임의 중심점을 중심점으로 하여, 현재 프레임에서 길이 및/또는 폭이 각각 템플릿 프레임의 이미지의 길이 및/또는 폭보다 큰 영역 이미지를 잘라 내고 검출 프레임으로 하기 위한 전처리 유닛을 추가로 포함해도 된다. 도 6에 나타내는 바와 같이, 본 발명의 목표 검출 장치의 다른 실시예의 구성 모식도이다.
또한, 도 6을 다시 참조하여 본 발명의 목표 검출 장치의 또 하나의 실시예에서는 검출 프레임의 특징에 대해 합성곱 조작을 행하고, 채널수가 검출 프레임의 특징의 채널수와 동일한 제3 특징을 취득하기 위한 제3 합성곱층을 추가로 포함해도 된다. 이에 대응하여, 상기 실시예에서는 국소 영역 검출기는 분류 가중치를 사용하여 제3 특징에 대해 합성곱 조작을 행하기 위해 사용된다.
또한, 도 6을 다시 참조하여 본 발명의 목표 검출 장치의 추가적인 다른 실시예에서는 검출 프레임의 특징에 대해 합성곱 조작을 행하고, 채널수가 검출 프레임의 특징의 채널수와 동일한 제4 특징을 취득하기 위한 제4 합성곱층을 추가로 포함해도 된다. 이에 대응하여, 상기 실시예에서는 국소 영역 검출기는 회귀 가중치를 사용하여 제4 특징에 대해 합성곱 조작을 행하기 위해 사용된다.
본 발명의 목표 검출 장치의 각 실시예의 다른 실시형태에서는 취득 유닛은 분류 결과와 회귀 결과에 의해 복수의 후보 프레임에서 하나의 후보 프레임을 선택하고, 선택된 후보 프레임의 편차량에 의해 선택된 후보 프레임을 회귀시키고, 검출 프레임에서의 목표 대상물의 검출 프레임을 취득하기 위해 사용된다.
예시적으로는 취득 유닛은 분류 결과와 회귀 결과에 의해 복수의 후보 프레임에서 하나의 후보 프레임을 선택할 때, 분류 결과와 회귀 결과의 가중치 계수에 의해 복수의 후보 프레임에서 하나의 후보 프레임을 선택하기 위해 사용된다.
또한, 도 6을 다시 참조하여 본 발명의 목표 검출 장치의 추가적인 다른 실시예에서는 회귀 결과에 의해 분류 결과를 조정하기 위한 조정 유닛을 추가로 포함해도 된다. 이에 대응하여, 취득 유닛은 분류 결과와 회귀 결과에 의해 복수의 후보 프레임에서 하나의 후보 프레임을 선택할 때, 조정 후의 분류 결과에 의해 복수의 후보 프레임에서 하나의 후보 프레임을 선택하기 위해 사용된다 .
도 7은 본 발명의 목표 검출 장치의 추가적인 다른 실시예의 구성 모식도이다. 상기 실시예의 목표 검출 장치는 본 발명의 도 3∼도 4의 목표 검출 네트워크의 트레이닝 방법의 실시예 중 어느 하나를 실현하기 위해 이용 가능하다. 도 7에 나타내는 바와 같이, 도 5 또는 도 6에 나타내는 실시예와 비교하면, 상기 실시예의 목표 검출 장치는 취득된 검출 프레임에서의 목표 대상물의 검출 프레임을 예측 검출 프레임으로 하고, 검출 프레임의 라벨링 정보와 예측 검출 프레임에 기초하여 뉴럴 네트워크, 제1 합성곱층 및 제2 합성곱층을 트레이닝하기 위한 트레이닝 유닛을 추가로 포함한다.
일 실시형태에서는 검출 프레임의 라벨링 정보는 라벨링된 검출 프레임에서의 목표 대상물의 검출 프레임의 위치와 크기를 포함한다. 이에 대응하여, 상기 실시형태에서는 트레이닝 유닛은 라벨링된 검출 프레임의 위치 및 크기와 예측 검출 프레임의 위치 및 크기의 차에 의해 뉴럴 네트워크, 제1 합성곱층 및 제2 합성곱층의 가중치를 조정하기 위해 사용된다.
본 발명의 상기 실시예에 의하면, 뉴럴 네트워크에 의해 템플릿 프레임과 검출 프레임의 특징을 각각 추출하고, 템플릿 프레임의 특징에 기초하여 국소 영역 검출기의 분류 가중치와 회귀 가중치를 취득하고, 검출 프레임의 특징을 국소 영역 검출기에 입력하고, 국소 영역 검출기에서 출력되는 복수의 후보 프레임의 분류 결과와 회귀 결과에 의해, 국소 영역 검출기에서 출력되는 복수의 후보 프레임의 분류 결과와 회귀 결과에 의해, 검출 프레임에서의 목표 대상물의 검출 프레임을 취득하고, 검출 프레임의 라벨링 정보와 예측 검출 프레임에 기초하여 목표 검출 네트워크를 트레이닝한다. 본 발명의 실시예에 기초하여 트레이닝된 목표 검출 네트워크에 의하면, 동일한 뉴럴 네트워크 또는 동일한 구성을 갖는 뉴럴 네트워크에 의해 동일한 목표 대상물의 유사 특징을 보다 잘 추출할 수 있고, 상이한 프레임에서 추출된 목표 대상물의 특징 변화가 작고, 검출 프레임에서의 목표 대상물의 검출 결과의 정확성을 높이는데 기여한다. 또한, 템플릿 프레임의 특징에 기초하여 국소 영역 검출기의 분류 가중치와 회귀 가중치를 취득함으로써, 국소 영역 검출기는 검출 프레임의 복수의 후보 프레임의 분류 결과와 회귀 결과를 취득하고, 추가로 검출 프레임에서의 상기 목표 대상물의 검출 프레임을 취득할 수 있고, 목표 대상물의 위치와 크기의 변화를 보다 잘 추정할 수 있고, 검출 프레임에서의 목표 대상물의 위치를 보다 정확하게 확정할 수 있고, 목표 추적의 속도나 정확성이 높아져 추적 효과가 우수하고, 속도가 빠르다.
도 8은 본 발명의 목표 검출 장치의 일 적용 실시예의 구성 모식도이다. 도 9는 본 발명의 목표 검출 장치의 다른 적용 실시예의 구성 모식도이다. 도 8 및 도 9에서는 LxMxN(예를 들면, 256x20x20)에서 L은 채널수를 나타내고, M과 N은 각각 높이(즉, 길이)와 폭을 나타낸다.
본 발명의 실시예는 본 발명의 상기 실시예 중 어느 하나의 목표 검출 장치를 포함하는 전자 기기를 추가로 제공한다.
본 발명의 실시예는 실행 가능 명령을 기억하기 위한 메모리와, 메모리와 통신하여 실행 가능 명령을 실행함으로써 본 발명의 상기 실시예 중 어느 하나의 목표 검출 방법 또는 목표 검출 네트워크의 트레이닝 방법의 조작을 완성하기 위한 프로세서를 포함하는 다른 전자 기기를 추가로 제공한다.
도 10은 본 발명의 전자 기기의 일 적용 실시예의 구성 모식도이다. 이하, 본원의 실시예의 단말 장치 또는 서버를 실현하는데 적합한 전자 기기의 구성 모식도를 나타내는 도 10을 참조한다. 도 10에 나타내는 바와 같이, 상기 전자 기기는 하나 또는 복수의 프로세서, 통신부 등을 포함한다. 상기 하나 또는 복수의 프로세서는 예를 들면, 하나 또는 복수의 중앙 처리 유닛(CPU) 및/또는 하나 또는 복수의 이미지 프로세서(GPU) 등이며, 프로세서는 판독 전용 메모리(ROM)에 기억된 실행 가능 명령 또는 기억부에서 랜덤 액세스 메모리(RAM)에 로드된 실행 가능 명령에 의해 각종 적절한 동작 및 처리를 실현할 수 있다. 통신부는 네트워크 카드를 포함해도 되지만, 이에 제한되지 않고, 상기 네트워크 카드는 IB(Infiniband) 네트워크 카드를 포함해도 되지만, 이에 한정되지 않는다. 프로세서는 실행 가능 명령을 실행하도록 판독 전용 메모리 및/또는 랜덤 액세스 메모리와 통신하고, 버스를 통해 통신부에 접속되고, 통신부를 통해 다른 대상 장치와 통신하여, 본 발명의 실시예에서 제공되는 방법 중 어느 한 항에 대응하는 조작을 완성해도 된다. 예를 들면, 뉴럴 네트워크에 의해 검출 프레임과, 목표 대상물의 검출 프레임의 이미지로서, 이미지의 크기가 상기 검출 프레임보다 작은 템플릿 프레임의 특징을 각각 추출하고, 상기 템플릿 프레임의 특징에 기초하여 국소 영역 검출기의 분류 가중치와 회귀 가중치를 취득하고, 상기 검출 프레임의 특징을 상기 국소 영역 검출기에 입력하고, 상기 국소 영역 검출기에서 출력되는 복수의 후보 프레임의 분류 결과와 회귀 결과를 취득하고, 상기 국소 영역 검출기에서 출력되는 복수의 후보 프레임의 분류 결과와 회귀 결과에 의해, 상기 검출 프레임에서의 상기 목표 대상물의 검출 프레임을 취득한다. 또한, 예를 들면, 뉴럴 네트워크에 의해 검출 프레임과, 목표 대상물의 검출 프레임의 이미지로서, 이미지의 크기가 상기 검출 프레임보다 작은 템플릿 프레임의 특징을 각각 추출하고, 제1 합성곱층에 의해 상기 템플릿 프레임의 특징의 채널을 증가시키고, 얻어진 제1 특징을 상기 국소 영역 검출기의 분류 가중치로 하고, 제2 합성곱층에 의해 상기 템플릿 프레임의 특징의 채널을 증가시키고, 얻어진 제2 특징을 상기 국소 영역 검출기의 회귀 가중치로 하고, 상기 검출 프레임의 특징을 상기 국소 영역 검출기에 입력하고, 상기 국소 영역 검출기에서 출력되는 복수의 후보 프레임의 분류 결과와 회귀 결과를 취득하고, 상기 국소 영역 검출기에서 출력되는 복수의 후보 프레임의 분류 결과와 회귀 결과에 의해, 상기 검출 프레임에서의 상기 목표 대상물의 검출 프레임을 취득하고, 취득된 상기 검출 프레임에서의 상기 목표 대상물의 검출 프레임을 예측 검출 프레임으로 하고, 상기 검출 프레임의 라벨링 정보와 상기 예측 검출 프레임에 기초하여 상기 뉴럴 네트워크, 상기 제1 합성곱층 및 상기 제2 합성곱층을 트레이닝한다.
또한, RAM에는 장치의 동작에 필요한 각종 프로그램이나 데이터가 격납되어 있어도 된다. CPU, ROM 및 RAM은 버스를 통해 서로 접속된다. RAM을 갖는 경우, ROM은 선택 가능한 모듈이다. RAM은 프로세서에 본 발명의 상기 방법 중 어느 한 항에 대응하는 조작을 실행하기 위한 실행 가능 명령을 격납하거나, 또는 동작시 당해 실행 가능 명령을 ROM에 기록한다. 입력/출력(I/O) 인터페이스도 버스에 접속된다. 통신부는 집적적으로 설치되어도 되고, 복수의 서브 모듈(예를 들면, 복수의 IB 네트워크 카드)을 갖고, 또한 버스를 통해 링크되도록 설치되어도 된다.
키보드, 마우스 등을 포함하는 입력부와, 예를 들면, 음극선관(CRT), 액정 디스플레이(LCD) 등 및 스피커 등을 포함하는 출력부와, 하드 디스크 등을 포함하는 기억부와, 예를 들면, LAN 카드, 모뎀 등의 네트워크 인터페이스 카드를 포함하는 통신부가 I/O 인터페이스에 접속되어 있다. 통신부는 예를 들면, 인터넷과 같은 네트워크를 통해 통신 처리를 실행한다. 드라이브도 필요에 따라 I/O 인터페이스에 접속된다. 예를 들면, 자기 디스크, 광디스크, 광자기 디스크, 반도체 메모리 등의 리무버블(removable) 매체는 필요에 따라 드라이브 상에 장착되고, 거기에서 판독된 컴퓨터 프로그램을 필요에 따라 기억부에 설치한다.
또한, 도 10에 나타내는 아키텍쳐는 선택 가능한 일 실시형태에 불과하다. 구체적인 실천 과정에서는 실제 필요에 따라 상기 도 10의 부품의 수 및 종류를 선택, 삭제, 추가 또는 치환할 수 있다. 상이한 기능의 부품의 설치에 대해, 개별적인 설치 또는 집적적인 설치 등의 실현 방식을 채용할 수 있고, 예를 들면, GPU와 CPU는 개별적으로 설치되거나, 또는 GPU를 CPU에 집적시키고, 통신부는 개별적으로 설치되거나, 또는 CPU나 GPU에 집적적으로 설치되는 것 등이 가능하다. 상기 대체적인 실시형태는 모두 본원의 보호 범위에 포함된다.
또한, 본 발명의 실시예는 컴퓨터 판독 가능 명령을 기억하기 위한 컴퓨터 기억 매체로서, 상기 명령이 실행되면, 본 발명의 상기 실시예의 목표 검출 방법 또는 목표 검출 네트워크의 트레이닝 방법 중 어느 하나의 조작이 실현되는 컴퓨터 기억 매체를 추가로 제공한다.
또한, 본 발명의 실시예는 컴퓨터 판독 가능 명령을 포함하는 컴퓨터 프로그램으로서, 상기 컴퓨터 판독 가능 명령이 기기 상에서 작동하면 상기 기기에서의 프로세서에 본 발명의 상기 실시예의 목표 검출 방법 또는 목표 검출 네트워크의 트레이닝 방법 중 어느 하나의 조작을 실현하기 위한 실행 가능 명령을 실행시키기 위한 컴퓨터 프로그램을 추가로 제공한다.
본 발명의 실시예는 단일 목표 추적을 행할 수 있다. 예를 들면, 다목표 추적 시스템에서 프레임마다 목표 검출을 행하지 않아도 되고, 소정의 검출 간격, 예를 들면, 10 프레임마다 한 번 검출하고, 그 사이의 9 프레임에 대해서는 단일 목표 추적에 의해 중간 프레임에서의 목표의 위치를 특정하도록 해도 된다. 본 발명의 실시예의 알고리즘은 속도가 빠르기 때문에, 전체적으로 다목표 추적 시스템에 추적을 보다 빨리 완료시키고, 보다 양호한 효과를 달성할 수 있다.
당업자이면, 상기 방법의 실시예를 실현하는 전체 또는 일부 단계는 프로그램에 의해 관련 하드웨어에 명령을 내림으로써 완성할 수 있음을 이해해야 하고, 상기 프로그램은 ROM, RAM, 자기 디스크 또는 광 디스크 등의 프로그램 코드를 기억 가능한 다양한 매체를 포함하는 컴퓨터 판독 가능 기억 매체에 기억 가능하고, 당해 프로그램이 실행되면, 상기 방법의 실시예를 포함하는 단계를 실행한다.
본 명세서에서의 다양한 실시예는 점진적으로 설명되고, 각 실시예에 대해 다른 실시예와의 상이점에 집중하여 설명했지만, 각 실시예의 동일하거나 또는 유사한 부분에 대해서는 상호 참조하면 된다. 시스템 실시예에 대해서는 기본적으로 방법 실시예에 대응되기 때문에, 간단하게 설명했지만, 관련 부분은 방법 실시예의 설명의 일부를 참조하면 된다.
본 발명의 방법 및 장치는 다양한 형태로 실현될 수 있다. 예를 들면, 소프트웨어, 하드웨어, 펌웨어 또는 소프트웨어, 하드웨어, 펌웨어의 임의의 조합에 의해 본 발명의 방법 및 장치를 제공할 수 있다. 상기 방법의 단계의 상기 순서는 간단히 설명하기 위한 것이고, 다른 형태로 특별히 설명하지 않는 한, 본 발명의 방법의 단계는 상기 구체적으로 설명한 순서에 한정되지 않는다. 또한, 일부 실시예에서는 본 발명은 기록 매체에 기억된 프로그램으로 해도 되고, 상기 프로그램은 본 발명의 방법을 실현하기 위한 기계 가독 명령을 포함한다. 따라서, 본 발명은 본 발명의 방법을 실행하기 위한 프로그램이 기억된 기록 매체도 포함한다.
본원의 설명은 예시 및 설명을 위한 것이고, 빠짐없이 또는 본원을 개시된 형식으로 한정하는 것은 아니다. 당업자에게는 많은 수정 및 변형이 명백한 것이다. 실시예를 선택하여 설명하는 목적은 본원의 원리 및 실제 응용을 보다 바람직하게 설명하고, 당업자에게 본원을 이해시켜 특정 용도에 적합한 각종 수정을 추가한 각종 실시예를 설계하게 하는 것에 있다. 

Claims (43)

  1. 검출 프레임과, 목표 대상물의 검출 프레임의 이미지로서, 이미지의 크기가 상기 검출 프레임보다 작은 템플릿 프레임의 특징을 뉴럴 네트워크에 의해 각각 추출하는 것과,
    상기 템플릿 프레임의 특징에 기초하여 국소 영역 검출기의 분류 가중치와 회귀 가중치를 취득하는 것과,
    상기 검출 프레임의 특징을 상기 국소 영역 검출기에 입력하고, 상기 국소 영역 검출기에서 출력되는 복수의 후보 프레임의 분류 결과와 회귀 결과를 취득하는 것과,
    상기 국소 영역 검출기에서 출력되는 복수의 후보 프레임의 분류 결과와 회귀 결과에 의해, 상기 검출 프레임에서의 상기 목표 대상물의 검출 프레임을 취득하는 것을 포함하는, 목표 검출 방법.
  2. 제 1 항에 있어서,
    상기 뉴럴 네트워크에 의해, 비디오 시퀀스에서 시계열적으로 상기 검출 프레임 뒤에 위치하는 하나 이상의 다른 검출 프레임의 특징을 추출하는 것과,
    상기 하나 이상의 다른 검출 프레임의 특징을 상기 국소 영역 검출기에 순서대로 입력하고, 상기 국소 영역 검출기에서 출력되는 상기 하나 이상의 다른 검출 프레임에서의 복수의 후보 프레임 및 각 후보 프레임의 분류 결과와 회귀 결과를 순서대로 취득하는 것과,
    상기 하나 이상의 다른 검출 프레임의 복수의 후보 프레임의 분류 결과와 회귀 결과에 의해, 상기 하나 이상의 다른 검출 프레임에서의 상기 목표 대상물의 검출 프레임을 순서대로 취득하는 것을 추가로 포함하는, 목표 검출 방법.
  3. 제 1 항 또는 제 2 항에 있어서,
    뉴럴 네트워크에 의해 템플릿 프레임과 검출 프레임의 특징을 각각 추출하는 것은,
    동일한 뉴럴 네트워크에 의해 상기 템플릿 프레임과 상기 검출 프레임의 특징을 각각 추출하는 것, 또는
    동일한 구성을 갖는 별도의 뉴럴 네트워크에 의해 상기 템플릿 프레임과 상기 검출 프레임의 특징을 각각 추출하는 것을 포함하는, 목표 검출 방법.
  4. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
    상기 템플릿 프레임은 비디오 시퀀스에서 검출 타이밍이 상기 검출 프레임보다 앞에 위치하고, 또한 목표 대상물의 검출 프레임이 특정된 프레임인, 목표 검출 방법.
  5. 제 1 항 내지 제 4 항 중 어느 한 항에 있어서,
    상기 검출 프레임은 상기 목표 대상물의 검출을 행하는 현재 프레임 또는 현재 프레임에서의 상기 목표 대상물이 존재 가능한 영역 이미지인, 목표 검출 방법.
  6. 제 5 항에 있어서,
    상기 검출 프레임이 상기 목표 대상물의 검출을 행하는 현재 프레임에서의 상기 목표 대상물이 존재 가능한 영역 이미지인 경우,
    상기 템플릿 프레임의 중심점을 중심점으로 하여, 현재 프레임에서 길이 및 폭 중 하나 이상이 각각 상기 템플릿 프레임의 이미지의 길이 및 폭 중 하나 이상보다 큰 영역 이미지를 잘라 내고 상기 검출 프레임으로 하는 것을 추가로 포함하는, 목표 검출 방법.
  7. 제 1 항 내지 제 6 항 중 어느 한 항에 있어서,
    상기 템플릿 프레임의 특징에 기초하여 국소 영역 검출기의 분류 가중치를 취득하는 것은,
    제1 합성곱층에 의해 상기 템플릿 프레임의 특징에 대해 합성곱 조작을 행하고, 합성곱 조작에 의해 취득된 제1 특징을 상기 국소 영역 검출기의 분류 가중치로 하는 것을 포함하는, 목표 검출 방법.
  8. 제 1 항 내지 제 7 항 중 어느 한 항에 있어서,
    상기 템플릿 프레임의 특징에 기초하여 국소 영역 검출기의 회귀 가중치를 취득하는 것은,
    제2 합성곱층에 의해 상기 템플릿 프레임의 특징에 대해 합성곱 조작을 행하고, 합성곱 조작에 의해 취득된 제2 특징을 상기 국소 영역 검출기의 회귀 가중치로 하는 것을 포함하는, 목표 검출 방법.
  9. 제 1 항 내지 제 8 항 중 어느 한 항에 있어서,
    상기 검출 프레임의 특징을 상기 국소 영역 검출기에 입력하고, 상기 국소 영역 검출기에서 출력되는 복수의 후보 프레임의 분류 결과와 회귀 결과를 취득하는 것은,
    상기 분류 가중치를 사용하여 상기 검출 프레임의 특징에 대해 합성곱 조작을 행하고, 복수의 후보 프레임의 분류 결과를 취득하는 것과, 상기 회귀 가중치를 사용하여 상기 검출 프레임의 특징에 대해 합성곱 조작을 행하고, 복수의 후보 프레임의 회귀 결과를 취득하는 것을 포함하는, 목표 검출 방법.
  10. 제 9 항에 있어서,
    상기 검출 프레임의 특징을 추출한 후, 제3 합성곱층에 의해 상기 검출 프레임의 특징에 대해 합성곱 조작을 행하고, 채널수가 상기 검출 프레임의 특징의 채널수와 동일한 제3 특징을 취득하는 것을 추가로 포함하고,
    상기 분류 가중치를 사용하여 상기 검출 프레임의 특징에 대해 합성곱 조작을 행하고, 복수의 후보 프레임의 분류 결과를 취득하는 것은 상기 분류 가중치를 사용하여 상기 제3 특징에 대해 합성곱 조작을 행하고, 복수의 후보 프레임의 분류 결과를 취득하는 것을 포함하는, 목표 검출 방법.
  11. 제 9 항 또는 제 10 항에 있어서,
    상기 템플릿 프레임의 특징을 추출한 후, 제4 합성곱층에 의해 상기 검출 프레임의 특징에 대해 합성곱 조작을 행하고, 채널수가 상기 검출 프레임의 특징의 채널수와 동일한 제4 특징을 취득하는 것을 추가로 포함하고,
    상기 회귀 가중치를 사용하여 상기 검출 프레임의 특징에 대해 합성곱 조작을 행하고, 복수의 후보 프레임의 회귀 결과를 취득하는 것은 상기 회귀 가중치를 사용하여 상기 제4 특징에 대해 합성곱 조작을 행하고, 복수의 후보 프레임의 회귀 결과를 취득하는 것을 포함하는, 목표 검출 방법.
  12. 제 1 항 또는 제 11 항 중 어느 한 항에 있어서,
    상기 국소 영역 검출기에서 출력되는 복수의 후보 프레임의 분류 결과와 회귀 결과에 의해, 상기 검출 프레임에서의 상기 목표 대상물의 검출 프레임을 취득하는 것은,
    상기 분류 결과와 상기 회귀 결과에 의해 상기 복수의 후보 프레임에서 하나의 후보 프레임을 선택하고, 선택된 후보 프레임의 편차량에 의해 상기 선택된 후보 프레임을 회귀시키고, 상기 검출 프레임에서의 상기 목표 대상물의 검출 프레임을 취득하는 것을 포함하는, 목표 검출 방법.
  13. 제 12 항에 있어서,
    상기 분류 결과와 상기 회귀 결과에 의해 상기 복수의 후보 프레임에서 하나의 후보 프레임을 선택하는 것은,
    상기 분류 결과와 상기 회귀 결과의 가중치 계수에 의해 상기 복수의 후보 프레임에서 하나의 후보 프레임을 선택하는 것을 포함하는, 목표 검출 방법.
  14. 제 12 항에 있어서,
    회귀 결과를 취득한 후, 상기 회귀 결과에 의해 상기 분류 결과를 조정하는 것을 추가로 포함하고,
    상기 분류 결과와 상기 회귀 결과에 의해 상기 복수의 후보 프레임에서 하나의 후보 프레임을 선택하는 것은 조정 후의 분류 결과에 의해 상기 복수의 후보 프레임에서 하나의 후보 프레임을 선택하는 것을 포함하는, 목표 검출 방법.
  15. 검출 프레임과, 목표 대상물의 검출 프레임의 이미지로서, 이미지의 크기가 상기 검출 프레임보다 작은 템플릿 프레임의 특징을 뉴럴 네트워크에 의해 각각 추출하는 것과,
    제1 합성곱층에 의해 상기 템플릿 프레임의 특징에 대해 합성곱 조작을 행하고, 합성곱 조작에 의해 취득된 제1 특징을 상기 국소 영역 검출기의 분류 가중치로 하고, 제2 합성곱층에 의해 상기 템플릿 프레임의 특징에 대해 합성곱 조작을 행하고, 합성곱 조작에 의해 취득된 제2 특징을 상기 국소 영역 검출기의 회귀 가중치로 하는 것과,
    상기 검출 프레임의 특징을 상기 국소 영역 검출기에 입력하고, 상기 국소 영역 검출기에서 출력되는 복수의 후보 프레임의 분류 결과와 회귀 결과를 취득하는 것과,
    상기 국소 영역 검출기에서 출력되는 복수의 후보 프레임의 분류 결과와 회귀 결과에 의해, 상기 검출 프레임에서의 상기 목표 대상물의 검출 프레임을 취득하는 것과,
    취득된 상기 검출 프레임에서의 상기 목표 대상물의 검출 프레임을 예측 검출 프레임으로 하고, 상기 검출 프레임의 라벨링 정보와 상기 예측 검출 프레임에 기초하여 상기 뉴럴 네트워크, 상기 제1 합성곱층 및 상기 제2 합성곱층을 트레이닝하는 것을 포함하는, 목표 검출 네트워크의 트레이닝 방법.
  16. 제 15 항에 있어서,
    상기 뉴럴 네트워크에 의해 비디오 시퀀스에서 시계열적으로 상기 검출 프레임 뒤에 위치하는 하나 이상의 다른 검출 프레임의 특징을 추출하는 것과,
    상기 하나 이상의 다른 검출 프레임의 특징을 상기 국소 영역 검출기에 순서대로 입력하고, 상기 국소 영역 검출기에서 출력되는 상기 하나 이상의 다른 검출 프레임에서의 복수의 후보 프레임 및 각 후보 프레임의 분류 결과와 회귀 결과를 순서대로 취득하는 것과,
    상기 하나 이상의 다른 검출 프레임의 복수의 후보 프레임의 분류 결과와 회귀 결과에 의해, 상기 하나 이상의 다른 검출 프레임에서의 상기 목표 대상물의 검출 프레임을 순서대로 취득하는 것을 추가로 포함하는, 목표 검출 네트워크의 트레이닝 방법.
  17. 제 15 항 또는 제 16 항에 있어서,
    뉴럴 네트워크에 의해 템플릿 프레임과 검출 프레임의 특징을 각각 추출하는 것은,
    동일한 뉴럴 네트워크에 의해 상기 템플릿 프레임과 상기 검출 프레임의 특징을 각각 추출하는 것, 또는
    동일한 구성을 갖는 별도의 뉴럴 네트워크에 의해 상기 템플릿 프레임과 상기 검출 프레임의 특징을 각각 추출하는 것을 포함하는, 목표 검출 네트워크의 트레이닝 방법.
  18. 제 15 항 내지 제 17 항 중 어느 한 항에 있어서,
    상기 템플릿 프레임은 비디오 시퀀스에서 검출 타이밍이 상기 검출 프레임보다 앞에 위치하고, 또한 목표 대상물의 검출 프레임이 특정된 프레임인, 목표 검출 네트워크의 트레이닝 방법.
  19. 제 15 항 내지 제 18 항 중 어느 한 항에 있어서,
    상기 검출 프레임은 상기 목표 대상물의 검출을 행하는 현재 프레임 또는 현재 프레임에서의 상기 목표 대상물이 존재 가능한 영역 이미지인, 목표 검출 네트워크의 트레이닝 방법.
  20. 제 19 항에 있어서,
    상기 검출 프레임이 상기 목표 대상물의 검출을 행하는 현재 프레임에서의 상기 목표 대상물이 존재 가능한 영역 이미지인 경우,
    상기 템플릿 프레임의 중심점을 중심점으로 하여, 현재 프레임에서 길이 및 폭 중 하나 이상이 각각 상기 템플릿 프레임의 이미지의 길이 및 폭 중 하나 이상보다 큰 영역 이미지를 잘라 내고 상기 검출 프레임으로 하는 것을 추가로 포함하는, 목표 검출 네트워크의 트레이닝 방법.
  21. 제 15 항 내지 제 20 항 중 어느 한 항에 있어서,
    상기 검출 프레임의 특징을 상기 국소 영역 검출기에 입력하고, 상기 국소 영역 검출기에서 출력되는 복수의 후보 프레임의 분류 결과와 회귀 결과를 취득하는 것은,
    상기 분류 가중치를 사용하여 상기 검출 프레임의 특징에 대해 합성곱 조작을 행하고, 복수의 후보 프레임의 분류 결과를 취득하는 것과, 상기 회귀 가중치를 사용하여 상기 검출 프레임의 특징에 대해 합성곱 조작을 행하고, 복수의 후보 프레임의 회귀 결과를 취득하는 것을 포함하는, 목표 검출 네트워크의 트레이닝 방법.
  22. 제 21 항에 있어서,
    상기 검출 프레임의 특징을 추출한 후,
    제3 합성곱층에 의해 상기 검출 프레임의 특징에 대해 합성곱 조작을 행하고, 채널수가 상기 검출 프레임의 특징의 채널수와 동일한 제3 특징을 취득하는 것을 추가로 포함하고,
    상기 분류 가중치를 사용하여 상기 검출 프레임의 특징에 대해 합성곱 조작을 행하고, 복수의 후보 프레임의 분류 결과를 취득하는 것은 상기 분류 가중치를 사용하여 상기 제3 특징에 대해 합성곱 조작을 행하고, 복수의 후보 프레임의 분류 결과를 취득하는 것을 포함하는, 목표 검출 네트워크의 트레이닝 방법.
  23. 제 21 항에 있어서,
    상기 템플릿 프레임의 특징을 추출한 후,
    제4 합성곱층에 의해 상기 검출 프레임의 특징에 대해 합성곱 조작을 행하고, 채널수가 상기 검출 프레임의 특징의 채널수와 동일한 제4 특징을 취득하는 것을 추가로 포함하고,
    상기 회귀 가중치를 사용하여 상기 검출 프레임의 특징에 대해 합성곱 조작을 행하고, 복수의 후보 프레임의 회귀 결과를 취득하는 것은 상기 회귀 가중치를 사용하여 상기 제4 특징에 대해 합성곱 조작을 행하고, 복수의 후보 프레임의 회귀 결과를 취득하는 것을 포함하는, 목표 검출 네트워크의 트레이닝 방법.
  24. 제 15 항 내지 제 23 항 중 어느 한 항에 있어서,
    상기 국소 영역 검출기에서 출력되는 복수의 후보 프레임의 분류 결과와 회귀 결과에 의해, 상기 검출 프레임에서의 상기 목표 대상물의 검출 프레임을 취득하는 것은,
    상기 분류 결과와 상기 회귀 결과에 의해 상기 복수의 후보 프레임에서 하나의 후보 프레임을 선택하고, 선택된 후보 프레임의 편차량에 의해 상기 선택된 후보 프레임을 회귀시키고, 상기 검출 프레임에서의 상기 목표 대상물의 검출 프레임을 취득하는 것을 포함하는, 목표 검출 네트워크의 트레이닝 방법.
  25. 제 24 항에 있어서,
    상기 분류 결과와 상기 회귀 결과에 의해 상기 복수의 후보 프레임에서 하나의 후보 프레임을 선택하는 것은,
    상기 분류 결과와 상기 회귀 결과의 가중치 계수에 의해 상기 복수의 후보 프레임에서 하나의 후보 프레임을 선택하는 것을 포함하는, 목표 검출 네트워크의 트레이닝 방법.
  26. 제 25 항에 있어서,
    회귀 결과를 취득한 후, 상기 회귀 결과에 의해 상기 분류 결과를 조정하는 것을 추가로 포함하고,
    상기 분류 결과와 상기 회귀 결과에 의해 상기 복수의 후보 프레임에서 하나의 후보 프레임을 선택하는 것은 조정 후의 분류 결과에 의해 상기 복수의 후보 프레임에서 하나의 후보 프레임을 선택하는 것을 포함하는, 목표 검출 네트워크의 트레이닝 방법.
  27. 제 15 항 내지 제 26 항 중 어느 한 항에 있어서,
    상기 검출 프레임의 라벨링 정보는 라벨링된 상기 검출 프레임에서의 상기 목표 대상물의 검출 프레임의 위치와 크기를 포함하고,
    취득된 상기 검출 프레임에서의 상기 목표 대상물의 검출 프레임을 예측 검출 프레임으로 하고, 상기 검출 프레임의 라벨링 정보와 상기 예측 검출 프레임에 기초하여 상기 뉴럴 네트워크, 상기 제1 합성곱층 및 상기 제2 합성곱층을 트레이닝하는 것은,
    상기 라벨링된 검출 프레임의 위치 및 크기와 상기 예측 검출 프레임의 위치 및 크기의 차에 의해, 상기 뉴럴 네트워크, 상기 제1 합성곱층 및 상기 제2 합성곱층의 가중치를 조정하는 것을 포함하는, 목표 검출 네트워크의 트레이닝 방법.
  28. 검출 프레임과, 목표 대상물의 검출 프레임의 이미지로서, 이미지의 크기가 상기 검출 프레임보다 작은 템플릿 프레임의 특징을 각각 추출하기 위한 뉴럴 네트워크와,
    상기 템플릿 프레임의 특징의 채널을 증가시키고, 얻어진 제1 특징을 국소 영역 검출기의 분류 가중치로 하기 위한 제1 합성곱층과,
    상기 템플릿 프레임의 특징의 채널을 증가시키고, 얻어진 제2 특징을 상기 국소 영역 검출기의 회귀 가중치로 하기 위한 제2 합성곱층과,
    상기 검출 프레임의 특징에 의해 복수의 후보 프레임의 분류 결과와 회귀 결과를 출력하기 위한 국소 영역 검출기와,
    상기 국소 영역 검출기에서 출력되는 복수의 후보 프레임의 분류 결과와 회귀 결과에 의해, 상기 검출 프레임에서의 상기 목표 대상물의 검출 프레임을 취득하기 위한 취득 유닛을 포함하는, 목표 검출 장치.
  29. 제 28 항에 있어서,
    상기 뉴럴 네트워크는 동일한 구성을 갖고, 상기 템플릿 프레임과 상기 검출 프레임의 특징을 각각 추출하기 위해 사용되는 별도의 뉴럴 네트워크를 포함하는, 목표 검출 장치.
  30. 제 28 항 또는 제 29 항에 있어서,
    상기 템플릿 프레임은 비디오 시퀀스에서 검출 타이밍이 상기 검출 프레임보다 앞에 위치하고, 또한 목표 대상물의 검출 프레임이 특정된 프레임인, 목표 검출 장치.
  31. 제 28 항 내지 제 30 항 중 어느 한 항에 있어서,
    상기 검출 프레임은 상기 목표 대상물의 검출을 행하는 현재 프레임 또는 현재 프레임에서의 상기 목표 대상물이 존재 가능한 영역 이미지인, 목표 검출 장치.
  32. 제 31 항에 있어서,
    상기 템플릿 프레임의 중심점을 중심점으로 하여, 현재 프레임에서 길이 및 폭 중 하나 이상이 각각 상기 템플릿 프레임의 이미지의 길이 및 폭 중 하나 이상보다 큰 영역 이미지를 자르고 상기 검출 프레임으로 하기 위한 전처리 유닛을 추가로 포함하는, 목표 검출 장치.
  33. 제 28 항 내지 제 32 항 중 어느 한 항에 있어서,
    상기 국소 영역 검출기는 상기 분류 가중치를 사용하여 상기 검출 프레임의 특징에 대해 합성곱 조작을 행하고, 복수의 후보 프레임의 분류 결과를 취득하는 것과, 상기 회귀 가중치를 사용하여 상기 검출 프레임의 특징에 대해 합성곱 조작을 행하고, 복수의 후보 프레임의 회귀 결과를 취득하는 것에 사용되는, 목표 검출 장치.
  34. 제 33 항에 있어서,
    상기 검출 프레임의 특징에 대해 합성곱 조작을 행하고, 채널수가 상기 검출 프레임의 특징의 채널수와 동일한 제3 특징을 취득하기 위한 제3 합성곱층과,
    상기 분류 가중치를 사용하여 상기 제3 특징에 대해 합성곱 조작을 행하기 위한 상기 국소 영역 검출기를 추가로 포함하는, 목표 검출 장치.
  35. 제 33 항에 있어서,
    상기 검출 프레임의 특징에 대해 합성곱 조작을 행하고, 채널수가 상기 검출 프레임의 특징의 채널수와 동일한 제4 특징을 취득하기 위한 제4 합성곱층과,
    상기 회귀 가중치를 사용하여 상기 제4 특징에 대해 합성곱 조작을 행하기 위한 상기 국소 영역 검출기를 추가로 포함하는, 목표 검출 장치.
  36. 제 28 항 내지 제 35 항 중 어느 한 항에 있어서,
    상기 취득 유닛은 상기 분류 결과와 상기 회귀 결과에 의해 상기 복수의 후보 프레임에서 하나의 후보 프레임을 선택하고, 선택된 후보 프레임의 편차량에 의해 상기 선택된 후보 프레임을 회귀시키고, 상기 검출 프레임에서의 상기 목표 대상물의 검출 프레임을 취득하기 위해 사용되는, 목표 검출 장치.
  37. 제 36 항에 있어서,
    상기 취득 유닛은 상기 분류 결과와 상기 회귀 결과에 의해 상기 복수의 후보 프레임에서 하나의 후보 프레임을 선택할 때, 상기 분류 결과와 상기 회귀 결과의 가중치 계수에 의해 상기 복수의 후보 프레임에서 하나의 후보 프레임을 선택하기 위해 사용되는, 목표 검출 장치.
  38. 제 36 항에 있어서,
    상기 회귀 결과에 의해 상기 분류 결과를 조정하기 위한 조정 유닛을 추가로 포함하고,
    상기 취득 유닛은 상기 분류 결과와 상기 회귀 결과에 의해 상기 복수의 후보 프레임에서 하나의 후보 프레임을 선택할 때, 조정 후의 분류 결과에 의해 상기 복수의 후보 프레임에서 하나의 후보 프레임을 선택하기 위해 사용되는, 목표 검출 장치.
  39. 제 28 항 내지 제 38 항 중 어느 한 항에 있어서,
    취득된 상기 검출 프레임에서의 상기 목표 대상물의 검출 프레임을 예측 검출 프레임으로 하고, 상기 검출 프레임의 라벨링 정보와 상기 예측 검출 프레임에 기초하여 상기 뉴럴 네트워크, 상기 제1 합성곱층 및 상기 제2 합성곱층을 트레이닝하기 위한 트레이닝 유닛을 추가로 포함하는, 목표 검출 장치.
  40. 제 39 항에 있어서,
    상기 검출 프레임의 라벨링 정보는 라벨링된 상기 검출 프레임에서의 상기 목표 대상물의 검출 프레임의 위치와 크기를 포함하고,
    상기 트레이닝 유닛은 상기 라벨링된 검출 프레임의 위치 및 크기와 상기 예측 검출 프레임의 위치 및 크기의 차에 의해, 상기 뉴럴 네트워크, 상기 제1 합성곱층 및 상기 제2 합성곱층의 가중치를 조정하기 위해 사용되는, 목표 검출 장치.
  41. 제 28 항 내지 제 40 항 중 어느 한 항에 따른 목표 검출 장치를 포함하는, 전자 기기.
  42. 실행 가능 명령을 기억하기 위한 메모리와,
    상기 메모리와 통신하여 상기 실행 가능 명령을 실행함으로써 제 1 항 내지 제 27 항 중 어느 한 항의 방법의 조작을 완성하기 위한 프로세서를 포함하는, 전자 기기.
  43. 컴퓨터 판독 가능 명령을 기억하기 위한 컴퓨터 기억 매체로서, 상기 명령이 실행되면, 제 1 항 내지 제 27 항 중 어느 한 항의 방법의 조작이 실현되는, 컴퓨터 기억 매체.
KR1020207016026A 2017-11-12 2018-11-09 목표 검출 방법 및 장치, 트레이닝 방법, 전자 기기 및 매체 KR20200087784A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201711110587.1A CN108230359B (zh) 2017-11-12 2017-11-12 目标检测方法和装置、训练方法、电子设备、程序和介质
CN201711110587.1 2017-11-12
PCT/CN2018/114884 WO2019091464A1 (zh) 2017-11-12 2018-11-09 目标检测方法和装置、训练方法、电子设备和介质

Publications (1)

Publication Number Publication Date
KR20200087784A true KR20200087784A (ko) 2020-07-21

Family

ID=62655730

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020207016026A KR20200087784A (ko) 2017-11-12 2018-11-09 목표 검출 방법 및 장치, 트레이닝 방법, 전자 기기 및 매체

Country Status (7)

Country Link
US (1) US11455782B2 (ko)
JP (1) JP7165731B2 (ko)
KR (1) KR20200087784A (ko)
CN (1) CN108230359B (ko)
PH (1) PH12020550588A1 (ko)
SG (1) SG11202004324WA (ko)
WO (1) WO2019091464A1 (ko)

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108230359B (zh) * 2017-11-12 2021-01-26 北京市商汤科技开发有限公司 目标检测方法和装置、训练方法、电子设备、程序和介质
US11430312B2 (en) * 2018-07-05 2022-08-30 Movidius Limited Video surveillance with neural networks
CN109584276B (zh) * 2018-12-04 2020-09-25 北京字节跳动网络技术有限公司 关键点检测方法、装置、设备及可读介质
CN109726683B (zh) * 2018-12-29 2021-06-22 北京市商汤科技开发有限公司 目标对象检测方法和装置、电子设备和存储介质
CN111435432B (zh) * 2019-01-15 2023-05-26 北京市商汤科技开发有限公司 网络优化方法及装置、图像处理方法及装置、存储介质
CN110136107B (zh) * 2019-05-07 2023-09-05 上海交通大学 基于dssd和时域约束x光冠脉造影序列自动分析方法
CN110399900A (zh) * 2019-06-26 2019-11-01 腾讯科技(深圳)有限公司 对象检测方法、装置、设备及介质
CN110533184B (zh) * 2019-08-31 2023-01-06 南京人工智能高等研究院有限公司 一种网络模型的训练方法及装置
CN110598785B (zh) * 2019-09-11 2021-09-07 腾讯科技(深圳)有限公司 一种训练样本图像的生成方法及装置
US11429809B2 (en) 2019-09-24 2022-08-30 Beijing Sensetime Technology Development Co., Ltd Image processing method, image processing device, and storage medium
CN110647938B (zh) * 2019-09-24 2022-07-15 北京市商汤科技开发有限公司 图像处理方法及相关装置
CN111860090A (zh) * 2019-11-06 2020-10-30 北京嘀嘀无限科技发展有限公司 一种车辆验证方法及装置
CN110866509B (zh) * 2019-11-20 2023-04-28 腾讯科技(深圳)有限公司 动作识别方法、装置、计算机存储介质和计算机设备
US11080833B2 (en) * 2019-11-22 2021-08-03 Adobe Inc. Image manipulation using deep learning techniques in a patch matching operation
CN110942065B (zh) * 2019-11-26 2023-12-12 Oppo广东移动通信有限公司 文本框选方法、装置、终端设备及计算机可读存储介质
KR102311798B1 (ko) * 2019-12-12 2021-10-08 포항공과대학교 산학협력단 다중 객체 추적 방법 및 장치
JP7490359B2 (ja) * 2019-12-24 2024-05-27 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム
CN111383244B (zh) * 2020-02-28 2023-09-01 浙江大华技术股份有限公司 一种目标检测跟踪方法
CN111915593A (zh) * 2020-08-04 2020-11-10 中国科学院微电子研究所 模型建立方法、装置、电子设备及存储介质
CN111898701B (zh) * 2020-08-13 2023-07-25 网易(杭州)网络有限公司 模型训练、帧图像生成、插帧方法、装置、设备及介质
CN112215899B (zh) * 2020-09-18 2024-01-30 深圳市瑞立视多媒体科技有限公司 帧数据在线处理方法、装置和计算机设备
CN112381136B (zh) * 2020-11-12 2022-08-19 深兰智能科技(上海)有限公司 目标检测方法和装置
CN112464797B (zh) * 2020-11-25 2024-04-02 创新奇智(成都)科技有限公司 一种吸烟行为检测方法、装置、存储介质及电子设备
CN112465691A (zh) * 2020-11-25 2021-03-09 北京旷视科技有限公司 图像处理方法、装置、电子设备和计算机可读介质
CN112465868B (zh) * 2020-11-30 2024-01-12 浙江华锐捷技术有限公司 一种目标检测跟踪方法、装置、存储介质及电子装置
CN112580474B (zh) * 2020-12-09 2021-09-24 云从科技集团股份有限公司 基于计算机视觉的目标对象检测方法、系统、设备及介质
CN112528932B (zh) * 2020-12-22 2023-12-08 阿波罗智联(北京)科技有限公司 用于优化位置信息的方法、装置、路侧设备和云控平台
CN112906478B (zh) * 2021-01-22 2024-01-09 北京百度网讯科技有限公司 目标对象的识别方法、装置、设备和存储介质
CN113128564B (zh) * 2021-03-23 2022-03-22 武汉泰沃滋信息技术有限公司 一种基于深度学习的复杂背景下典型目标检测方法及系统
CN113076923A (zh) * 2021-04-21 2021-07-06 山东大学 基于轻量型网络MobileNet-SSD的口罩佩戴检测方法、设备及存储介质
CN113221962B (zh) * 2021-04-21 2022-06-21 哈尔滨工程大学 一种解耦分类与回归任务的三维点云单阶段目标检测方法
CN113160247B (zh) * 2021-04-22 2022-07-05 福州大学 基于频率分离的抗噪孪生网络目标跟踪方法
CN113327253B (zh) * 2021-05-24 2024-05-24 北京市遥感信息研究所 一种基于星载红外遥感影像的弱小目标检测方法
CN113065618A (zh) * 2021-06-03 2021-07-02 常州微亿智造科技有限公司 工业质检中的检测方法、检测装置

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6192360B1 (en) * 1998-06-23 2001-02-20 Microsoft Corporation Methods and apparatus for classifying text and for building a text classifier
EP1754179A1 (en) * 2004-04-08 2007-02-21 Mobileye Technologies Limited Pedestrian detection
CN104424634B (zh) * 2013-08-23 2017-05-03 株式会社理光 对象跟踪方法和装置
WO2015118686A1 (ja) * 2014-02-10 2015-08-13 三菱電機株式会社 階層型ニューラルネットワーク装置、判別器学習方法および判別方法
CN106355188B (zh) * 2015-07-13 2020-01-21 阿里巴巴集团控股有限公司 图像检测方法及装置
CN105740910A (zh) * 2016-02-02 2016-07-06 北京格灵深瞳信息技术有限公司 一种车辆物件检测方法及装置
US11144761B2 (en) * 2016-04-04 2021-10-12 Xerox Corporation Deep data association for online multi-class multi-object tracking
CN105976400B (zh) * 2016-05-10 2017-06-30 北京旷视科技有限公司 基于神经网络模型的目标跟踪方法及装置
JP6832504B2 (ja) 2016-08-08 2021-02-24 パナソニックIpマネジメント株式会社 物体追跡方法、物体追跡装置およびプログラム
CN106326837B (zh) * 2016-08-09 2019-09-17 北京旷视科技有限公司 对象追踪方法和装置
CN106650630B (zh) * 2016-11-11 2019-08-23 纳恩博(北京)科技有限公司 一种目标跟踪方法及电子设备
CN106709936A (zh) * 2016-12-14 2017-05-24 北京工业大学 一种基于卷积神经网络的单目标跟踪方法
CN107066990B (zh) * 2017-05-04 2019-10-11 厦门美图之家科技有限公司 一种目标跟踪方法及移动设备
CN108230359B (zh) * 2017-11-12 2021-01-26 北京市商汤科技开发有限公司 目标检测方法和装置、训练方法、电子设备、程序和介质
CN109726683B (zh) * 2018-12-29 2021-06-22 北京市商汤科技开发有限公司 目标对象检测方法和装置、电子设备和存储介质

Also Published As

Publication number Publication date
PH12020550588A1 (en) 2021-04-26
US11455782B2 (en) 2022-09-27
CN108230359A (zh) 2018-06-29
JP7165731B2 (ja) 2022-11-04
CN108230359B (zh) 2021-01-26
JP2021502645A (ja) 2021-01-28
WO2019091464A1 (zh) 2019-05-16
SG11202004324WA (en) 2020-06-29
US20200265255A1 (en) 2020-08-20

Similar Documents

Publication Publication Date Title
KR20200087784A (ko) 목표 검출 방법 및 장치, 트레이닝 방법, 전자 기기 및 매체
TWI773189B (zh) 基於人工智慧的物體檢測方法、裝置、設備及儲存媒體
US10915741B2 (en) Time domain action detecting methods and system, electronic devices, and computer storage medium
JP6999028B2 (ja) 目標トラッキング方法及び装置、電子機器並びに記憶媒体
US10824916B2 (en) Weakly supervised learning for classifying images
US10885365B2 (en) Method and apparatus for detecting object keypoint, and electronic device
US20210073558A1 (en) Method of detecting target object detection method and device for detecting target object, electronic apparatus and storage medium
US20210398294A1 (en) Video target tracking method and apparatus, computer device, and storage medium
CN113656582B (zh) 神经网络模型的训练方法、图像检索方法、设备和介质
US20200134365A1 (en) Instance segmentation methods and apparatuses, electronic devices, programs, and media
WO2016054779A1 (en) Spatial pyramid pooling networks for image processing
US9373174B2 (en) Cloud based video detection and tracking system
CN113971751A (zh) 训练特征提取模型、检测相似图像的方法和装置
JP7093427B2 (ja) オブジェクト追跡方法および装置、電子設備並びに記憶媒体
US20220237403A1 (en) Neural network based scene text recognition
JP7163372B2 (ja) 目標トラッキング方法及び装置、電子機器並びに記憶媒体
US20200219269A1 (en) Image processing apparatus and method, and image processing system
CN113766330A (zh) 基于视频生成推荐信息的方法和装置
CN113569740B (zh) 视频识别模型训练方法与装置、视频识别方法与装置
CN109345460B (zh) 用于矫正图像的方法和装置
Xiong et al. Snap angle prediction for 360 panoramas
CN115690545A (zh) 训练目标跟踪模型和目标跟踪的方法和装置
US20220385810A1 (en) Panoramic Video Data Process
US11961249B2 (en) Generating stereo-based dense depth images
CN111967403B (zh) 视频移动区域确定方法、装置及电子设备

Legal Events

Date Code Title Description
A201 Request for examination
WITB Written withdrawal of application