KR20200018612A - 물체 검출을 위한 방법, 장치 및 기기 - Google Patents

물체 검출을 위한 방법, 장치 및 기기 Download PDF

Info

Publication number
KR20200018612A
KR20200018612A KR1020207000829A KR20207000829A KR20200018612A KR 20200018612 A KR20200018612 A KR 20200018612A KR 1020207000829 A KR1020207000829 A KR 1020207000829A KR 20207000829 A KR20207000829 A KR 20207000829A KR 20200018612 A KR20200018612 A KR 20200018612A
Authority
KR
South Korea
Prior art keywords
determined
targets
category
target
offset value
Prior art date
Application number
KR1020207000829A
Other languages
English (en)
Other versions
KR102407664B1 (ko
Inventor
리앙 리우
쿠안쿠안 리
준지에 얀
Original Assignee
베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드 filed Critical 베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드
Publication of KR20200018612A publication Critical patent/KR20200018612A/ko
Application granted granted Critical
Publication of KR102407664B1 publication Critical patent/KR102407664B1/ko

Links

Images

Classifications

    • G06K9/00798
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06K9/00805
    • G06K9/00825
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0454
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/74Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • G06V20/584Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads of vehicle lights or traffic lights
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/588Recognition of the road, e.g. of lane markings; Recognition of the vehicle driving pattern in relation to the road
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle
    • G06T2207/30261Obstacle

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Radar Systems Or Details Thereof (AREA)

Abstract

본 출원의 실시 형태는 물체 검출을 위한 방법, 장치 및 기기를 개시하였고, 상기 방법은, 검출될 이미지 중의 복수 개의 결정될 타겟을 획득하는 단계; 상기 복수 개의 결정될 타겟이 각각 적어도 하나의 카테고리에 대한 신뢰도를 결정하고, 상기 신뢰도에 따라 복수 개의 결정될 타겟의 소속 카테고리를 결정하며, 상기 복수 개의 결정될 타겟의 각 소속 카테고리에 대응하는 위치 오프셋 값을 결정하는 단계; 상기 복수 개의 결정될 타겟의 각 소속 카테고리에 대응하는 위치 오프셋 값을 상기 복수 개의 결정될 타겟의 위치 오프셋 값으로서 사용하는 단계; 상기 복수 개의 결정될 타겟의 소속 카테고리, 상기 복수 개의 결정될 타겟의 위치 오프셋 값 및 상기 복수 개의 결정될 타겟이 소속 카테고리에 대한 신뢰도에 따라, 상기 검출될 이미지에서 적어도 하나의 결정될 타겟의 위치 정보와 소속 카테고리를 결정하는 단계를 포함한다. 본 출원의 실시 형태는 높은 실시간 요구를 갖는 물체 검출 애플리케이션 시나리오에 더 잘 적용될 수 있다.

Description

물체 검출을 위한 방법, 장치 및 기기
관련 출원의 상호 참조
본 출원은 2017년 11월 22일에 중국 특허청에 제출한 출원번호가 CN 201711175559.8이고, 발명의 명칭이 "물체 검출을 위한 방법, 장치 및 기기"인 중국특허 출원의 우선권을 요청하며, 그 전부 내용을 인용하여 본 출원에 결합하였다.
본 출원은 컴퓨터 시각 기술에 관한 것이며, 특히 물체 검출을 위한 방법, 장치, 전자 기기 및 컴퓨터 판독 가능 저장 매체에 관한 것이다.
이미지 인식과 같은 컴퓨터 시각 분야에서는, 종종 물체 검출, 특히 범용 물체 검출을 빠르고 정확하게 구현해야 한다.
기존의 범용 물체 검출은 일반적으로, 물체 위치 결정 과정 및 물체 카테고리 인식 과정을 포함한다. 여기서 물체 위치 결정 과정은 주로 이미지 중의 물체의 외측 프레임을 결정하기 위한 것이며, 물체 카테고리 인식 과정은 주로 물체 소속 카테고리를 결정하기 위한 것이다.
기존의 물체 위치 결정을 위한 구현 방식은 일반적으로, 선택적 검색(Selective Search) 알고리즘 또는 후보 영역 제안 네트워크(Region Proposal Network, RPN) 등 방식을 이용하여, 이미지에서 물체의 복수 개의 후보 프레임을 획득한 다음, 후보 프레임의 위치를 더욱 정확하게 하기 위해, 다시 컨볼루션 뉴럴 네트워크를 통해 각 후보 프레임에 대해 회귀(regression) 처리를 진행하는 단계를 포함한다.
기존의 물체 카테고리 인식을 위한 구현 방식은 일반적으로, 물체 위치 결정 과정에 의해 결정된 후보 프레임에 대해, 컨볼루션 뉴럴 네트워크(Convolutional Neural Network, CNN)를 분류기로 사용함으로써, CNN을 통해 기설정된 카테고리에 속하는 각각의 후보 프레임의 신뢰도를 결정하며, 신뢰도가 가장 높은 카테고리를 후보 프레임의 소속 카테고리로서 사용한다.
본 출원의 실시 형태는 물체 검출을 위한 방법, 장치 및 기기를 제공한다.
본 출원의 실시 형태의 하나의 측면에 따르면, 물체 검출을 위한 방법을 제공하며, 상기 방법은, 검출될 이미지 중의 복수 개의 결정될 타겟을 획득하는 단계; 상기 복수 개의 결정될 타겟이 각각 적어도 하나의 카테고리에 대한 신뢰도를 결정하고, 상기 신뢰도에 따라 복수 개의 결정될 타겟의 소속 카테고리를 결정하며, 상기 복수 개의 결정될 타겟의 각 소속 카테고리에 대응하는 위치 오프셋 값을 결정하는 단계; 상기 복수 개의 결정될 타겟의 각 소속 카테고리에 대응하는 위치 오프셋 값을 상기 복수 개의 결정될 타겟의 위치 오프셋 값으로서 사용하는 단계; 상기 복수 개의 결정될 타겟의 소속 카테고리, 상기 복수 개의 결정될 타겟의 위치 오프셋 값 및 상기 복수 개의 결정될 타겟이 소속 카테고리에 대한 신뢰도에 따라, 상기 검출될 이미지에서 적어도 하나의 결정될 타겟의 위치 정보와 소속 카테고리를 결정하는 단계를 포함한다.
본 출원의 일 실시 형태에 있어서, 상기 검출될 이미지 중의 복수 개의 결정될 타겟을 획득하는 단계는, 상기 검출될 이미지에서 적어도 하나의 기설정 영역 크기에 기반하여 형성된 복수 개의 결정될 타겟을 획득하는 단계를 포함한다.
본 출원의 다른 일 실시 형태에 있어서, 상기 검출될 이미지에서 적어도 하나의 기설정 영역 크기에 기반하여 형성된 복수 개의 결정될 타겟을 획득하는 단계는, 검출될 이미지의 특징 맵을 획득하는 단계; 상기 특징 맵에서의 하나의 특징점에 대해, 기준 프레임 구성 정보에 따라 상기 특징점의 기준 프레임을 형성하고, 상기 특징점의 기준 프레임을 하나의 결정될 타겟으로서 사용하는 단계; 상기 특징 맵에서 복수 개의 특징점에 대응되는 복수 개의 결정될 타겟을 획득하는 단계를 포함한다.
본 출원의 또 다른 일 실시 형태에 있어서, 상기 검출될 이미지의 특징 맵을 획득하는 단계는, 상기 검출될 이미지를 컨볼루션 뉴럴 네트워크에서의 백본 네트워크에 입력하는 단계; 상기 백본 네트워크에 의해 출력된 특징 맵을 상기 컨볼루션 뉴럴 네트워크에서의 필터 계층에 입력하며, 상기 필터 계층에 의해 기설정 슬라이딩 윈도우에 따라 상기 특징 맵에 대해 필터링 처리를 진행하며, 상기 필터링 처리 후의 특징 맵을 상기 검출될 이미지의 특징 맵으로서 사용하는 단계를 포함한다.
본 출원의 또 다른 일 실시 형태에 있어서, 상기 검출될 이미지에서 적어도 하나의 기설정 영역 크기에 기반하여 형성된 복수 개의 결정될 타겟을 획득하는 단계는, 검출될 이미지의 특징 맵을 획득하는 단계; 기준 프레임 구성 정보에 기반하여 상기 특징 맵에 대해 풀링 처리를 진행하여, 복수 개의 새로운 특징 맵을 획득하고, 상기 복수 개의 새로운 특징 맵을 복수 개의 결정될 타겟으로서 사용하는 단계를 포함한다.
본 출원의 또 다른 일 실시 형태에 있어서, 상기 기설정 영역 크기는, 3 가지 상이한 길이 및 3 가지 상이한 가로세로비에 기반하여 형성된 9 개의 기설정 영역 크기; 또는 3 가지 상이한 너비 및 3 가지 상이한 가로세로비에 기반하여 형성된 9 개의 기설정 영역 크기; 또는 3 가지 상이한 길이 및 너비에 기반하여 형성된 9 개의 기설정 영역 크기를 포함한다.
본 출원의 또 다른 일 실시 형태에 있어서, 상기 카테고리는, 적어도 2 가지 물체 카테고리 및 하나의 백그라운드 카테고리를 포함한다.
본 출원의 또 다른 일 실시 형태에 있어서, 상기 상기 복수 개의 결정될 타겟이 각각 적어도 하나의 카테고리에 대한 신뢰도를 결정하고, 상기 신뢰도에 따라 복수 개의 결정될 타겟의 소속 카테고리를 결정하는 단계는, 하나의 결정될 타겟에 대해, 상기 결정될 타겟이 각각 상기 적어도 하나의 카테고리에 속하는 신뢰도를 계산하고, 가장 높은 신뢰도에 대응되는 카테고리를 상기 결정될 타겟의 소속 카테고리로서 사용하는 단계를 포함한다.
본 출원의 또 다른 일 실시 형태에 있어서, 상기 복수 개의 결정될 타겟의 각 소속 카테고리에 대응하는 위치 오프셋 값을 결정하는 단계는, 하나의 결정될 타겟에 대해, 소속 카테고리에 대한 상기 결정될 타겟의 상"?* 오프셋 값, 하방향 오프셋 값, 좌방향 오프셋 값 및 우방향 오프셋 값을 결정하는 단계를 포함한다.
본 출원의 또 다른 일 실시 형태에 있어서, 상기 결정될 타겟의 위치 정보는, 결정될 타겟의 외측 프레임 위치 정보를 포함한다.
본 출원의 또 다른 일 실시 형태에 있어서, 상기 복수 개의 결정될 타겟의 소속 카테고리, 상기 복수 개의 결정될 타겟의 위치 오프셋 값 및 상기 복수 개의 결정될 타겟이 소속 카테고리에 대한 신뢰도에 따라, 상기 검출될 이미지에서 적어도 하나의 결정될 타겟의 위치 정보와 소속 카테고리를 결정하는 단계는, 상기 복수 개의 결정될 타겟으로부터 기설정 신뢰도 요구를 만족시키는 신뢰도를 갖는 복수 개의 결정될 타겟을 선택 획득하는 단계; 상기 선택된 복수 개의 결정될 타겟의 위치 오프셋 값에 따라 검출될 이미지 중의 외측 프레임 위치 정보를 형성하는 단계; 상기 선택된 복수 개의 결정될 타겟의 소속 카테고리를 외측 프레임 소속 카테고리로서 사용하는 단계를 포함한다.
본 출원의 또 다른 일 실시 형태에 있어서, 상기 상기 복수 개의 결정될 타겟이 각각 적어도 하나의 카테고리에 대한 신뢰도를 결정하고, 상기 신뢰도에 따라 복수 개의 결정될 타겟의 소속 카테고리를 결정하며, 상기 복수 개의 결정될 타겟의 각 소속 카테고리에 대응하는 위치 오프셋 값을 결정하는 단계는, 컨볼루션 뉴럴 네트워크를 이용하여, 상기 복수 개의 결정될 타겟이 각각 적어도 하나의 카테고리에 대한 신뢰도를 결정하고, 상기 신뢰도에 따라 복수 개의 결정될 타겟의 소속 카테고리를 결정하며, 상기 복수 개의 결정될 타겟의 각 소속 카테고리에 대응하는 위치 오프셋 값을 결정하는 단계를 포함하며; 상기 방법은, 상기 컨볼루션 뉴럴 네트워크를 훈련시키는 단계를 더 포함하며, 상기 상기 컨볼루션 뉴럴 네트워크를 훈련시키는 단계는, 이미지 샘플 세트로부터 적어도 하나의 표준 위치 정보 및 표준 위치 소속 카테고리가 라벨링되어 있는 이미지 샘플을 획득하는 단계; 이미지 샘플 중의 복수 개의 결정될 타겟을 획득하는 단계; 컨볼루션 뉴럴 네트워크에서의 하나의 컨볼루션 계층을 이용하여 상기 복수 개의 결정될 타겟이 각각 적어도 하나의 카테고리에 대한 신뢰도를 결정하고, 상기 신뢰도에 따라 복수 개의 결정될 타겟의 소속 카테고리를 결정하며; 컨볼루션 뉴럴 네트워크에서의 다른 컨볼루션 계층을 이용하여 상기 복수 개의 결정될 타겟의 각 소속 카테고리에 대응하는 위치 오프셋 값을 결정하는 단계; 상기 복수 개의 결정될 타겟의 각 소속 카테고리에 대응하는 위치 오프셋 값을 상기 복수 개의 결정될 타겟의 위치 오프셋 값으로서 사용하는 단계; 상기 복수 개의 결정될 타겟이 상응하는 표준 위치에 대한 표준 위치 오프셋 값을 계산하는 단계; 컨볼루션 뉴럴 네트워크에서의 하나의 손실 계층을 이용하여 상응하는 표준 위치의 카테고리에 대한 상기 복수 개의 결정될 타겟에서 적어도 하나의 결정될 타겟의 위치 오프셋 값 및 상응하는 표준 위치 오프셋 값의 오차를 계산하며, 컨볼루션 뉴럴 네트워크에서의 하나의 손실 계층을 이용하여 상응하는 표준 위치 소속 카테고리에 대한 상기 복수 개의 결정될 타겟에서 적어도 하나의 결정될 타겟의 신뢰도와 표준 위치 소속 카테고리 사이의 오차를 계산하며, 상기 오차를 상기 컨볼루션 뉴럴 네트워크에서 역방향으로 전파하는 단계; 이미지 샘플 세트로부터 획득된 이미지 샘플의 개수가 미리 결정된 개수에 도달할 때까지, 그리고 오차가 미리 결정된 범위 내에 있는 경우에, 상기 컨볼루션 뉴럴 네트워크가 훈련을 완료하는 단계를 포함한다.
본 출원의 또 다른 일 실시 형태에 있어서, 상기 이미지 샘플 중의 복수 개의 결정될 타겟을 획득하는 단계는, 이미지 샘플에서 적어도 하나의 기설정 영역 크기에 기반하여 형성된 복수 개의 결정될 타겟을 획득하는 단계를 포함한다.
본 출원의 또 다른 일 실시 형태에 있어서, 상기 표준 위치는, 표준 외측 프레임을 포함한다.
본 출원의 또 다른 일 실시 형태에 있어서, 상기 복수 개의 결정될 타겟이 상응하는 표준 위치에 대한 표준 위치 오프셋 값을 계산하는 단계는, 상기 복수 개의 결정될 타겟에 각각 대응되는 오버랩 면적이 가장 큰 표준 외측 프레임을 결정하고, 오버랩 면적이 가장 큰 표준 외측 프레임에 대한 복수 개의 결정될 타겟의 표준 위치 오프셋 값을 각각 계산하는 단계를 포함한다.
본 출원의 또 다른 일 실시 형태에 있어서, 상기 복수 개의 결정될 타겟에서 적어도 하나의 결정될 타겟은, 상기 복수 개의 결정될 타겟 중의 복수 개의 양의 결정될 타겟으로부터 선택된 양의 결정될 타겟 및 복수 개의 결정될 타겟 중의 복수 개의 음의 결정될 타겟으로부터 선택된 음의 결정될 타겟을 포함하며, 선택된 양의 결정될 타겟 및 선택된 음의 결정될 타겟은 미리 결정된 비율을 만족시키며; 하나의 결정될 타겟에 대해, 상기 결정될 타겟과 그와 오버랩되는 면적이 가장 큰 표준 외측 프레임 사이의 오버랩 면적 및 상기 결정될 타겟과 표준 외측 프레임이 공동으로 커버되는 면적의 비율 값이 제1 비율 임계값보다 크면, 상기 결정될 타겟은 양의 결정될 타겟이며; 상기 비율 값이 제2 비율 임계값보다 작으면, 상기 결정될 타겟은 음의 결정될 타겟이다.
본 출원의 실시 형태의 다른 측면에 따르면, 물체 검출을 위한 장치를 제공하며, 검출될 이미지 중의 복수 개의 결정될 타겟을 획득하기 위한 결정될 타겟 획득 모듈; 상기 복수 개의 결정될 타겟이 각각 적어도 하나의 카테고리에 대한 신뢰도를 결정하고, 상기 신뢰도에 따라 복수 개의 결정될 타겟의 소속 카테고리를 결정하며, 상기 복수 개의 결정될 타겟의 각 소속 카테고리에 대응하는 위치 오프셋 값을 결정하기 위한 카테고리 및 위치 오프셋 값 예측 모듈; 상기 복수 개의 결정될 타겟의 각 소속 카테고리에 대응하는 위치 오프셋 값을 상기 복수 개의 결정될 타겟의 위치 오프셋 값으로서 사용하기 위한 위치 오프셋 결정 모듈; 및 상기 복수 개의 결정될 타겟의 소속 카테고리, 상기 복수 개의 결정될 타겟의 위치 오프셋 값 및 상기 복수 개의 결정될 타겟이 소속 카테고리에 대한 신뢰도에 따라, 상기 검출될 이미지에서 적어도 하나의 결정될 타겟의 위치 정보와 소속 카테고리를 결정하기 위한 검출 결과 결정 모듈을 포함한다.
본 출원의 일 실시 형태에 있어서, 상기 결정될 타겟 획득 모듈은 구체적으로, 상기 검출될 이미지에서 적어도 하나의 기설정 영역 크기에 기반하여 형성된 복수 개의 결정될 타겟을 획득하기 위한 것이다.
본 출원의 다른 일 실시 형태에 있어서, 상기 결정될 타겟 획득 모듈은, 검출될 이미지의 특징 맵을 획득하고, 상기 특징 맵에서의 하나의 특징점에 대해, 기준 프레임 구성 정보에 따라 상기 특징점의 기준 프레임을 형성하고, 상기 특징점의 하나의 기준 프레임을 하나의 결정될 타겟으로서 사용하며; 상기 특징 맵에서 복수 개의 특징점에 대응되는 복수 개의 결정될 타겟을 획득하기 위한 제1 결정될 타겟 획득 서브 모듈을 포함한다.
본 출원의 또 다른 일 실시 형태에 있어서, 상기 제1 결정될 타겟 획득 서브 모듈은 구체적으로, 상기 검출될 이미지를 컨볼루션 뉴럴 네트워크에서의 백본 네트워크에 입력하고; 상기 백본 네트워크에 의해 출력된 특징 맵을 상기 컨볼루션 뉴럴 네트워크에서의 필터 계층에 입력하며, 상기 필터 계층에 의해 기설정 슬라이딩 윈도우에 따라 상기 특징 맵에 대해 필터링 처리를 진행하며, 상기 필터링 처리 후의 특징 맵을 상기 검출될 이미지의 특징 맵으로서 사용하기 위한 것이다.
본 출원의 또 다른 일 실시 형태에 있어서, 상기 결정될 타겟 획득 모듈은, 검출될 이미지의 특징 맵을 획득하고, 기준 프레임 구성 정보에 기반하여 상기 특징 맵에 대해 풀링 처리를 진행하여, 복수 개의 새로운 특징 맵을 획득하며, 상기 복수 개의 새로운 특징 맵을 복수 개의 결정될 타겟으로서 사용하기 위한 제2 결정될 타겟 획득 서브 모듈을 포함한다.
본 출원의 또 다른 일 실시 형태에 있어서, 상기 기설정 영역 크기는, 3 가지 상이한 길이 및 3 가지 상이한 가로세로비에 기반하여 형성된 9 개의 기설정 영역 크기; 또는 3 가지 상이한 너비 및 3 가지 상이한 가로세로비에 기반하여 형성된 9 개의 기설정 영역 크기; 또는 3 가지 상이한 길이 및 너비에 기반하여 형성된 9 개의 기설정 영역 크기를 포함한다.
본 출원의 또 다른 일 실시 형태에 있어서, 상기 카테고리는, 적어도 2 가지 물체 카테고리 및 하나의 백그라운드 카테고리를 포함한다.
본 출원의 또 다른 일 실시 형태에 있어서, 상기 카테고리 및 위치 오프셋 값 예측 모듈은 구체적으로, 하나의 결정될 타겟에 대해, 상기 결정될 타겟이 각각 상기 적어도 하나의 카테고리에 속하는 신뢰도를 계산하고, 가장 높은 신뢰도에 대응되는 카테고리를 상기 결정될 타겟의 소속 카테고리로서 사용하기 위한 것이다.
본 출원의 또 다른 일 실시 형태에 있어서, 상기 카테고리 및 위치 오프셋 값 예측 모듈은 구체적으로, 하나의 결정될 타겟에 대해, 소속 카테고리에 대한 상기 결정될 타겟의 상"?* 오프셋 값, 하방향 오프셋 값, 좌방향 오프셋 값 및 우방향 오프셋 값을 결정하기 위한 것이다.
본 출원의 또 다른 일 실시 형태에 있어서, 상기 결정될 타겟의 위치 정보는, 결정될 타겟의 외측 프레임 위치 정보를 포함한다.
본 출원의 또 다른 일 실시 형태에 있어서, 상기 검출 결과 결정 모듈은 구체적으로, 상기 복수 개의 결정될 타겟으로부터 기설정 신뢰도 요구를 만족시키는 신뢰도를 갖는 복수 개의 결정될 타겟을 선택 획득하고, 상기 선택된 복수 개의 결정될 타겟의 위치 오프셋 값에 따라 검출될 이미지 중의 외측 프레임 위치 정보를 형성하며, 상기 선택된 복수 개의 결정될 타겟의 소속 카테고리를 외측 프레임 소속 카테고리로서 사용하기 위한 것이다.
본 출원의 또 다른 일 실시 형태에 있어서, 상기 카테고리 및 위치 오프셋 값 예측 모듈은 컨볼루션 뉴럴 네트워크를 이용하여 구현되며, 상기 장치는, 훈련 모듈을 더 포함하며, 상기 훈련 모듈은, 이미지 샘플 세트로부터 적어도 하나의 표준 위치 정보 및 표준 위치 소속 카테고리가 표시되어 있는 이미지 샘플을 획득하며; 이미지 샘플 중의 복수 개의 결정될 타겟을 획득하며; 컨볼루션 뉴럴 네트워크에서의 하나의 컨볼루션 계층을 이용하여 상기 복수 개의 결정될 타겟이 각각 적어도 하나의 카테고리에 대한 신뢰도를 결정하고, 상기 신뢰도에 따라 복수 개의 결정될 타겟의 소속 카테고리를 결정하며; 컨볼루션 뉴럴 네트워크에서의 다른 컨볼루션 계층을 이용하여 상기 복수 개의 결정될 타겟의 각 소속 카테고리에 대응하는 위치 오프셋 값을 결정하며; 상기 복수 개의 결정될 타겟의 각 소속 카테고리에 대응하는 위치 오프셋 값을 상기 복수 개의 결정될 타겟의 위치 오프셋 값으로서 사용하고; 상기 복수 개의 결정될 타겟이 상응하는 표준 위치에 대한 표준 위치 오프셋 값을 계산하며; 컨볼루션 뉴럴 네트워크에서의 하나의 손실 계층을 이용하여 상기 복수 개의 결정될 타겟에서 적어도 하나의 결정될 타겟에 상응하는 표준 위치의 카테고리에 대한 위치 오프셋 값 및 상응하는 표준 위치 오프셋 값의 오차를 계산하며, 컨볼루션 뉴럴 네트워크에서의 하나의 손실 계층을 이용하여 상응하는 표준 위치 소속 카테고리에 대한 상기 복수 개의 결정될 타겟에서 적어도 하나의 결정될 타겟의 신뢰도와 표준 위치 소속 카테고리 사이의 오차를 계산하며, 상기 오차를 상기 컨볼루션 뉴럴 네트워크에서 역방향으로 전파하고; 이미지 샘플 세트로부터 획득된 이미지 샘플의 개수가 미리 결정된 개수에 도달할 때까지, 그리고 오차가 미리 결정된 범위 내에 있는 경우에, 상기 컨볼루션 뉴럴 네트워크가 훈련을 완료하기 위한 것이다.
본 출원의 또 다른 일 실시 형태에 있어서, 상기 훈련 모듈은 구체적으로, 이미지 샘플에서 적어도 하나의 기설정 영역 크기에 기반하여 형성된 복수 개의 결정될 타겟을 획득하기 위한 것이다.
본 출원의 또 다른 일 실시 형태에 있어서, 상기 표준 위치는, 표준 외측 프레임을 포함한다.
본 출원의 또 다른 일 실시 형태에 있어서, 상기 훈련 모듈은 구체적으로, 상기 복수 개의 결정될 타겟에 각각 대응되는 오버랩 면적이 가장 큰 표준 외측 프레임을 결정하고, 오버랩 면적이 가장 큰 표준 외측 프레임에 대한 복수 개의 결정될 타겟의 표준 위치 오프셋 값을 각각 계산하는 단계를 포함한다.
본 출원의 또 다른 일 실시 형태에 있어서, 상기 일부 결정될 타겟은, 상기 복수 개의 결정될 타겟 중의 복수 개의 양의 결정될 타겟으로부터 선택된 양의 결정될 타겟 및 복수 개의 결정될 타겟 중의 복수 개의 음의 결정될 타겟으로부터 선택된 음의 결정될 타겟을 포함하며, 선택된 양의 결정될 타겟 및 선택된 음의 결정될 타겟은 미리 결정된 비율을 만족시키며; 하나의 결정될 타겟에 대해, 상기 결정될 타겟과 그와 오버랩되는 면적이 가장 큰 표준 외측 프레임 사이의 오버랩 면적 및 상기 결정될 타겟과 표준 외측 프레임이 공동으로 커버되는 면적의 비율 값이 제1 비율 임계값보다 크면, 상기 결정될 타겟은 양의 결정될 타겟이며; 상기 비율 값이 제2 비율 임계값보다 작으면, 상기 결정될 타겟은 음의 결정될 타겟이다.
본 출원의 실시 형태의 다른 측면에 따르면, 프로세서를 포함하는 전자 기기를 제공하며, 상기 프로세서는 상기 실시 형태 중 어느 하나에 따른 물체 검출을 위한 장치를 포함한다.
본 출원의 실시 형태의 또 다른 측면에 따르면, 전자 기기를 제공하며, 컴퓨터 프로그램을 저장하기 위한 메모리; 상기 메모리에 저장된 컴퓨터 프로그램을 실행하기 위한 프로세서를 포함하며, 상기 컴퓨터 프로그램은 실행될 때, 상기 실시 형태 중 어느 하나에 따른 물체 검출을 위한 방법 중의 각 단계를 구현한다.
본 출원의 실시 형태의 또 다른 측면에 따르면, 컴퓨터 프로그램이 저장된 컴퓨터저장 매체를 제공하며, 상기 컴퓨터 프로그램이 프로세서에 의해 실행될 때, 상기 실시 형태 중 어느 하나에 따른 물체 검출을 위한 방법 중의 각 단계를 구현한다.
본 출원의 실시 형태의 또 다른 측면에 따르면, 컴퓨터 판독 가능 코드를 포함하는 컴퓨터 프로그램 제품을 제공하며, 상기 컴퓨터 판독 가능 코드가 기기에서 작동될 때, 상기 기기 중의 프로세서는 상기 실시 형태 중 어느 하나에 따른 물체 검출을 위한 방법을 구현하기 위한 명령어를 실행한다.
본 출원의 상기 실시 형태에 의해 제공되는 물체 검출을 위한 방법, 장치 및 기기에 따라, 본 출원의 실시 형태는 결정될 타겟의 소속 카테고리를 결정하는 동시에, 각 결정될 타겟이 각 카테고리에 대한 각각의 위치 오프셋 값을 결정함으로써, 카테고리 결정 과정과 위치 오프셋 계산 과정을 병행하여 실행할 수 있어, 2 개 과정을 순차적으로 실행해야 함으로 인한 물체 검출의 실시간 특성에 미치는 영향을 낮출 수 있고, 각 결정될 타겟의 각 소속 카테고리에 대응하는 위치 오프셋 값을 복수 개의 결정될 타겟의 위치 오프셋 값으로서 사용함으로써, 간단한 선택 조작을 통해 각 결정될 타겟의 위치 오프셋 값을 신속하게 결정할 수 있어, 위치 오프셋 값을 결정하기 위해 소비되는 오랜 시간으로 인한 물체 검출의 실시간 특성에 미치는 영향을 낮추며, 상기 과정을 통해, 본 출원은 신뢰도에 기반하여 모든 결정될 타겟으로부터 상응하는 결정될 타겟을 신속하게 선택할 수 있으며, 선택된 상응하는 결정될 타겟의 위치 오프셋 값에 기반하여 그 위치 정보를 신속하고 정확하게 결정하며, 또한, 본 출원에서 3 개 또는 그 이상의 미리 설정된 카테고리가 포함되는 경우, 본 출원에 의해 제공되는 기술 방안은 범용 물체 검출을 구현할 수 있다. 이로부터 알 수 있다시피, 본 출원에 의해 제공되는 기술 방은 물체 검출의 실시간 특성을 개선하는 것에 있어서 유리하므로, 본 출원에 의해 제공되는 기술 방안은 실시간 요구가 높은 물체 검출 애플리케이션 시나리오에 더 잘 적용될 수 있다.
아래에, 첨부된 도면 및 실시예를 참조하여, 본 출원의 기술 방안을 상세히 설명한다.
본 명세서의 일부를 구성하는 첨부 도면은 본 출원의 실시예를 설명하고, 본 명세서의 원리를 설명과 함께 해석하기 위한 것이다.
아래의 상세한 설명에 따르면, 본 출원은 첨부 도면을 참조하여 더욱 명확하게 이해될 수 있다.
도 1은 본 출원의 실시예에 의해 제공된 하나의 애플리케이션 시나리오 모식도이다.
도 2는 본 출원의 실시예에 의해 제공된 물체 검출을 위한 방법의 하나의 흐름 모식도이다.
도 3은 본 출원의 실시예에 의해 제공된 물체 검출을 위한 방법의 다른 흐름 모식도이다.
도 4는 본 출원의 실시예에 의해 제공된 물체 검출을 위한 방법에서 컨볼루션 뉴럴 네트워크에 대해 훈련을 진행하는 하나의 예시적 흐름도이다.
도 5는 본 출원의 실시예에 의해 제공된 물체 검출을 위한 방법에서 컨볼루션 뉴럴 네트워크에 대해 훈련을 진행하는 하나의 예의 훈련 모식도이다.
도 6은 본 출원의 실시예에 의해 제공된 물체 검출을 위한 장치의 하나의 구조 모식도이다.
도 7은 본 출원의 전자 기기의 하나의 실시 형태의 구조 모식도이다.
도 8은 본 출원의 컴퓨터 저장 매체의 하나의 실시 형태의 모식도이다.
아래에 첨부 도면을 참조하여 본 출원의 다양한 실시예를 상세히 설명한다. 유의해야 할 것은, 달리 구체적으로 언급되지 않는 한, 실시예에 제시된 구성 요소, 단계의 상대적인 배열, 수치 표현 및 값은 본 출원의 범위를 한정하려는 것이 아니다.
동시에, 설명의 편의를 위해, 첨부 도면에 도시된 각 부분의 크기는 실제 비율로 도시되지 않았다는 것을 이해해야한다.
적어도 하나의 예시적인 실시예에 대한 이하의 설명은 실제로 예시일 뿐이며, 본 출원 및 그 응용 또는 사용을 한정하려는 것이 아니다.
관련 기술 분야의 통상의 기술자에게 공지된 기술, 방법 및 기기는 상세하게 논의되지 않을 수 있지만, 상기 기술, 방법 및 기기는 적절한 상황에서 본 명세서의 일부로서 고려되어야 한다.
유의해야 할 것은, 다음의 첨부 도면에서 유사한 참조 번호와 문자는 유사한 항목을 표시하므로, 어느 한 항목이 하나의 도면에서 정의되면, 후속 도면에서 이에 대해 추가로 논의될 필요가 없다.
본 출원의 실시예는 컴퓨터 시스템/서버에 응용될 수 있으며, 이는 다수의 다른 범용 또는 특수 목적 컴퓨팅 시스템 환경 또는 구성과 함께 작동될 수있다. 컴퓨터 시스템/서버와 함께 사용하기에 적합한 잘 알려진 컴퓨팅 시스템, 환경 및 구성 중 적어도 하나의 예는 개인용 컴퓨터 시스템, 서버 컴퓨터 시스템, 씬 클라이언트, 씩 클라이언트, 핸드 헬드 또는 랩톱 기기, 마이크로 프로세서 기반 시스템, 셋톱 프레임, 프로그래머블 가전 제품, 네트워크 개인용 컴퓨터, 소형 컴퓨터 시스템, 메인 프레임 컴퓨터 시스템 및 상기 시스템 중 임의의 시스템을 포함하는 분산 클라우드 컴퓨팅 기술 환경을 포함하지만 이에 한정되지는 않는다.
컴퓨터 시스템/서버는 컴퓨터 시스템에 의해 실행되는 컴퓨터 시스템 실행 가능 명령 (예를 들어, 프로그램 모듈)의 일반적인 맥락에서 설명 될 수있다. 일반적으로, 프로그램 모듈은 특정 작업을 실행하거나 특정 추상 데이터 타입을 구현하기 위한 루틴, 프로그램, 타겟 프로그램, 어셈블리, 논리, 데이터 구조 등을 포함할 수 있다. 컴퓨터 시스템/서버는 작업이 통신 네트워크를 통해 연결된 원격 처리 장치에 의해 실행되는 분산 클라우드 컴퓨팅 환경에서 구현 될 수있다. 분산 컴퓨팅 환경에서, 프로그램 모듈은 저장 기기를 포함하는 로컬 또는 원격 컴퓨팅 시스템 저장 매체에 위치 할 수있다.
도 1은 본 출원의 실시예에 의해 제공된 하나의 애플리케이션 시나리오 모식도이다. 도 1을 참조하면, 본 출원의 실시 형태에 따른 구현을 위한 애플리케이션 시나리오를 개략적으로 도시하였다.
도 1에서, 차량(100)에는 이미지 수집 장치가 장착되고, 상기 이미지 수집 장치는 차량(100) 외부 공간의 이미지를 수집할 수 있으며, 차량(100)이 자동 운전 중인 경우, 보행자(110), 동물, 횡단보도 및 신호등(120) 등 도로의 물체를 식별하기 위해, 이미지 수집 장치에 의해 수집된 이미지에 대해 물체 검출을 진행할 필요가 있으며; 예를 들어, 이미지 수집 장치에 의해 수집된 이미지에 대해 물체 검출을 진행함으로써, 전방의 신호등(120)이 녹색에서 적색으로 변하는 것으로 판단될 때, 차량(100)의 브레이크 장치와 같은 구성 요소를 적시에 제어함으로써, 주행 상태의 차량(100) 은 선행 차량 뒤에 또는 도로 상의 정지선의 뒤에 안전하게 주차되게 하며; 이어서, 전방의 신호등(120)이 적색에서 녹색으로 바뀐 것으로 판단될 때, 전반의 횡단보도에 보행자(110)가 없고, 차량(100)은 전방 차량과 안전한 거리를 유지하는 경우에, 차량(100)의 브레이크 장치 등 구성 요소를 적시에 제어함으로써, 정지 상태의 차량(100)은 계속 도로 위를 달릴 수 있다.
그러나, 본 기술 분야의 기술자는 본 출원의 실시 형태의 적용 시나리오가 상기 프레임 워크의 임의의 측면에 의해 한정되지 않는다는 것을 완전히 이해할 수 있을 것이다.
본 출원의 실시 형태에 따른 물체 검출을 위한 방법은 또한 범용 물체 검출을 위한 방법으로 지칭될 수 있다. 도 2는 본 출원의 실시예에 의해 제공된 물체 검출을 위한 방법의 하나의 흐름 모식도이다. 상기 방법은 단말 기기, 서버, 모바일 기기 및 차량 탑재 기기 등과 같은 전자 기기에 의해 실행될 수 있다. 도 2에 도시된 바와 같이, 본 출원의 물체 검출을 위한 방법은, 단계 S200, 단계 S210, 단계 S220 및 단계 S230를 포함한다. 아래에, 도 2의 각 단계를 각각 설명한다.
단계 S200에 있어서, 검출될 이미지 중의 복수 개의 결정될 타겟을 획득한다.
하나의 선택적인 예에 있어서, 상기 단계 S200은 프로세서가 메모리에 저장된 상응하는 명령어를 호출하여 실행할 수 있거나, 프로세서에 의해 작동되는 결정될 타겟 획득 모듈(600)에 의해 실행될 수 있다.
하나의 선택적인 예에 있어서, 본 출원의 실시예 중의 검출될 이미지는 사진 또는 실시간으로 캡처된 비디오 중의 하나의 프레임이다. 본 출원의 실시예는 검출될 이미지 중의 복수 개의 결정될 타겟을 획득하는 단계는, 검출될 이미지 중의 적어도 하나의 기설정 영역 크기(일반적으로 복수 개의 기설정 영역 크기) 에 기반하여 형성된 복수 개의 결정될 타겟을 획득하는 단계일 수 있다. 본 출원에서의 기설정 영역 크기는 미리 설정된 기준 프레임 구성 정보에 의해 결정될 수 있으며; 결정될 타겟은 검출될 이미지의 특징 맵에서의 특징점의 기준 프레임일 수 있거나, 검출될 이미지의 특징 맵에 기반하여 형성된 작은 특징 맵(즉, 로컬 특징 맵)일 수 있다.
검출될 이미지 중의 적어도 하나의 기설정 영역 크기에 기반하여 형성된 복수 개의 결정될 타겟을 획득하는 하나의 예에 있어서, 먼저, 검출될 이미지의 특징 맵을 획득한 후; 상기 특징 맵에서의 임의의 하나의 특징점에 대해, 미리 설정된 기준 프레임 구성 정보에 따라 상기 특징점의 복수 개의 기준 프레임을 형성하여, 특징 맵에서의 적어도 하나의 특징점의 기준 프레임을 획득할 수 있으며, 각 특징점의 각 기준 프레임을 모두 하나의 결정될 타겟으로서 사용함으로써, 복수 개의 특징점에 대응되는 복수 개의 결정될 타겟을 획득한다.
검출될 이미지 중의 적어도 하나의 기설정 영역 크기에 기반하여 형성된 복수 개의 결정될 타겟을 획득하는 다른 예는, 먼저, 검출될 이미지의 특징 맵을 획득한 후, 미리 설정된 기준 프레임 구성 정보에 기반하여 상기 특징 맵에 대해 풀링 처리를 진행하여, 복수 개의 새로운 특징 맵(즉, 복수 개의 작은 특징 맵 또는 복수 개의 로컬 특징 맵)을 형성할 수 있으며, 복수 개의 새로운 특징 맵을 복수 개의 결정될 타겟으로서 사용(예를 들어, 각 새로운 특징 맵을 각각 하나의 결정될 타겟으로서 사용함)하는 것이다.
상기 두 예에 있어서, 검출될 이미지의 특징 맵을 획득하는 하나의 방식은, 기존의 VGG16(Visual Geometry Group) 네트워크를 이용하여 본 출원의 실시 형태의 컨볼루션 뉴럴 네트워크에서의 백본 네트워크(backbone network)를 형성하며, 검출될 이미지를 상기 백본 네트워크에 제공하는 것에 의해, 상기 백본 네트워크가 VGG16 기술에 기반하여 검출될 이미지의 특징 맵을 출력함으로써, 본 출원의 실시 형태가 상기 백본 네트워크의 출력에 기반하여 검출될 이미지의 특징 맵을 획득할 수 있다.
상기 두 예에 있어서, 검출될 이미지의 특징 맵을 획득하는 다른 방식은, 기존의 구글 넷(GoogleNet)을 이용하여 본 출원의 실시 형태의 컨볼루션 뉴럴 네트워크에서의 백본 네트워크를 형성하며, 검출될 이미지를 상기 백본 네트워크에 제공하는 것에 의해, 상기 백본 네트워크가 구글 넷 기술에 기반하여 검출될 이미지의 특징 맵을 출력함으로서, 본 출원의 실시 형태는 상기 백본 네트워크의 출력에 기반하여 검출될 이미지의 특징 맵을 획득할 수 있다.
상기 두 예에 있어서, 검출될 이미지의 특징 맵을 획득하는 또 다른 방식은, 기존의 레스 넷(ResNet)을 이용하여 본 출원의 실시 형태의 컨볼루션 뉴럴 네트워크에서의 백본 네트워크를 형성하며, 검출될 이미지를 상기 백본 네트워크에 제공하는 것에 의해, 상기 백본 네트워크가 레스 넷(ResNet) 기술에 기반하여 검출될 이미지의 특징 맵을 출력함으로서, 본 출원의 실시 형태는 상기 백본 네트워크의 출력에 기반하여 검출될 이미지의 특징 맵을 획득할 수 있다.
상기 하나의 예에 있어서, 본 출원의 실시 형태는, 백본 네트워크에 의해 출력된 특징 맵을 최종적으로 획득된 특징 맵으로서 사용할 수 있으며, 본 출원의 실시 형태는 또한 백본 네트워크에 의해 출력된 특징 맵에 대해 필터링 처리를 진행함으로써, 백본 네트워크에 의해 출력된 특징 맵에서의 모든 특징점에 기반하여 동일한 특징점 개수를 갖는 새로운 특징 맵을 형성하며, 상기 새로운 특징 맵을 최종적으로 획득된 검출될 이미지의 특징 맵으로서 사용한다. 상기 필터링 처리된 구현 방식은, 백본 네트워크에 의해 출력된 모든 특징점이 하나의 특징 맵을 형성하도록 설정하며, 컨볼루션 뉴럴 네트워크에서의 필터 계층에 의해, 기설정 슬라이딩 윈도우(예를 들어, 3Х3 슬라이딩 윈도우)를 이용하여 특징 맵으로부터 미리 결정된 개수의 특징점(예를 들어, 9 개 특징점)을 순차적으로 선택하며, 매번 선택된 모든 특징점을 이용하여 하나의 새로운 특징점을 형성하고, 필터 계층에 의해 획득된 모든 새로운 특징점을 출력하며, 필터 계층에 의해 출력된 모든 새로운 특징점은 마찬가지로 하나의 특징 맵을 형성할 수 있으며, 그러나, 새로운 특징 맵에서의 각 특징점에 대응하여 검출될 이미지 중의 영역은 백본 네트워크에 의해 출력된 특징 맵에서의 상응하는특징점에 대응하여 검출될 이미지 중의 영역보다 큰 것일 수 있다. 본 출원의 실시 형태는필터 계층에 의해 특징 맵에 대해 필터링 처리를 진행하는 구체적인 구현 과정을 한정하지 않는다. 본 출원의 실시 형태는 백본 네트워크에 의해 출력된 특징 맵에 대해 필터링 처리를 진행하여 새로운 특징 맵을 형성함으로써, 결정된 외측 프레임 위치 정보 및 외측 프레임 소속 카테고리의 정확성을 개선하는 것에 있어서 유리하며, 따라서 물체 검출의 정확성을 개선하는 것에 있어서 유리하다.
하나의 선택적인 예에 있어서, 본 출원의 실시 형태는 미리 설정된 기준 프레임 구성 정보를 통해 기준 프레임(즉, 앵커(Anchor), 기준점)의 개수 및 크기를 미리 정의하며, 즉, 기준 프레임의 개수 및 크기는 모두 알려진 것이며, 기준 프레임이 이미지에서의 위치는 기준 프레임에 대응되는 특징점과 관련된다. 일반적인 상황에서, 복수 개의기준 프레임의 크기는 완전히 동일하지는않으며, 즉, 복수 개의 기준 프레임의 면적은 완전히 동일하지는 않으며, 예를 들어, 복수 개의 기준 프레임의 길이는 차이가 있고, 복수 개의 기준 프레임의 너비는 차이가 있으며, 복수 개의 기준 프레임의 가로세로비는 차이가 있다.
하나의 선택적인 예에 있어서, 본 출원의 실시 형태의 기준 프레임 구성 정보에는 3 가지 상이한 길이를 미리 설정하였고, 3 가지 상이한 가로세로비를 미리 설정하였으며, 따라서 미리 설정된 3 가지 상이한 길이 및 3 가지 상이한 가로세로비를 이용하여, 9 개의 상이한 형상의 기준 프레임을 형성할 수 있으며; 예를 들어, 미리 설정된 3 가지 상이한 길이는 각각 64, 128 및 256(단위는 픽셀임)일 수 있고, 미리 설정된 3 가지 상이한 가로세로비는 각각 0.5, 1.0 및 2.0일 수 있으며, 그러면, 상기 3 가지 상이한 길이 및 3 가지 상이한 가로세로비에 의해 형성된 9 개의 기준 프레임은, 64Х32, 64Х64, 64Х128, 128Х64, 128Х128, 128Х256, 256Х128, 256Х256 및 256Х512으로 표시될 수 있다.
다른 선택적인 예에 있어서, 본 출원의 실시 형태의 기준 프레임 구성 정보에서 3 가지 상이한 너비를 미리 설정하였고, 3 가지 상이한 가로세로비를 미리 설정하였으며, 따라서 미리 설정된 3 가지 상이한 너비 및 3 가지 상이한 가로세로비를 이용하여, 9 개의 상이한 형상의 기준 프레임을 형성할 수 있다.
또 다른 선택적인 예에 있어서, 본 출원의 실시 형태의 기준 프레임 구성 정보는 9 개의 기준 프레임에 대해 각각의 길이 및 너비를 각각 미리 설정하여, 9 개의 상이한 형상의 기준 프레임을 명확하게 결정할 수 있다.
본 출원에서의 기준 프레임의 개수 및 각 기준 프레임의 크기는 실제 경험에 따라 설정될 수 있으며, 본 출원의 실시 형태는 기준 프레임의 구체적인 개수를 한정하지 않으며, 기준 프레임의 크기도 한정하지 않는다.
단계 S210에 있어서, 복수 개의 결정될 타겟이 각각 적어도 하나의 카테고리에 대한 신뢰도를 결정하고, 신뢰도에 따라 복수 개의 결정될 타겟의 소속 카테고리를 결정하고, 복수 개의 결정될 타겟의 각 소속 카테고리에 대응하는 위치 오프셋 값을 결정한다.
하나의 선택적인 예에 있어서, 상기 단계 S210은 메모리에 저장된 상응하는 명령어를 호출함으로써 프로세서에 의해 실행될 수 있거나, 프로세서에 의해 작동되는 카테고리 및 위치 오프셋 값 예측 모듈(610)에 의해 실행될 수도 있다.
하나의 선택적인 예에 있어서, 본 출원은 컨볼루션 뉴럴 네트워크에서의 하나의 컨볼루션 계층을 이용하여 적어도 하나의 카테고리 각각에 대한 복수 개의 결정될 타겟(예를 들어, 모든 결정될 타겟)의 신뢰도를 결정하고, 획득된 신뢰도에 따라 복수 개의 결정될 타겟 각각의 소속 카테고리를 결정한다. 본 출원에서의 컨볼루션 뉴럴 네트워크는 많은 라벨링된 이미지 샘플을 이용하여 훈련될 수 있으며, 상기 컨볼루션 뉴럴 네트워크의 훈련 과정의 하나의 선택적인 예는 도 4에 대한 아래의 설명을 참조할 수 있으며, 여기서 더이상 설명하지 않는다. 본 출원의 실시예 중의 뉴럴 네트워크는, 백본 네트워크, 필터 계층 및 풀링(pooling) 계층 중 적어도 하나 및 2 개의 컨볼루션 계층(예를 들어, 제1 컨볼루션 계층 및 제2 컨볼루션 계층)을 포함하지만 이에 한정되는 것은 아니다.
하나의 선택적인 예에 있어서, 본 출원의 실시예에 따르면, 적어도 3 가지 카테고리, 예를 들어, 적어도 2 가지 물체 카테고리 및 하나의 백그라운드 카테고리가 미리 설정되어 있다. 예를 들어, 사람, 개, 기차 및 의자와 같은 상이한 종류의 물체에 대해 20 가지 물체 카테고리를 미리 설정하고, 백그라운드에 대해 백그라운드 카테고리, 즉 총 21 가지 카테고리를 미리 설정한다. 카테고리의 개수 및 결정될 타겟의 개수(예를 들어, 기준 프레임의 개수)는 컨볼루션 뉴럴 네트워크에서의 상응하는 컨볼루션 계층의 출력 차원을 결정할 것이다. 본 출원은 물체 카테고리의 개수 및 물체 카테고리가 대상으로 하는 물체의 구체적인 내용을 한정하지 않는다.
하나의 선택적인 예에 있어서, 본 출원의 실시 형태는 신뢰도에 대한 컨볼루션 계층의 계산을 통해 결정될 타겟의 소속 카테고리를 결정할 수 있으며, 예를 들어, RPN 중의 신뢰도를 예측하기 위한 컨볼루션 계층에 의해 신뢰도를 계산함으로써 결정될 타겟의 소속 카테고리를 결정한다. 예를 들어, 21 가지 카테고리, 즉 제1 물체 카테고리, 제2 물체 카테고리, ??, 제20 물체 카테고리 및 백그라운드 카테고리가 미리 설정되도록 설정하고, 상기 설정의 경우, 제1 결정될 타겟에 대해, 컨볼루션 뉴럴 네트워크에서의 하나의 컨볼루션 계층을 이용하여 제1 결정될 타겟이 제1 물체 카테고리에 속하 신뢰도, 제1 결정될 타겟이 제2 물체 카테고리에 속하는 신뢰도, ??, 제1 결정될 타겟이 제20 물체 카테고리에 속하는 신뢰도 및 제1 결정될 타겟이 백그라운드 카테고리에 속하는 신뢰도(총 21 개의 신뢰도임)를 계산할 수 있으며, 이 21 개의 신뢰도를 비교함으로써, 하나의 가장 높은 신뢰도를 결정할 수 있으며, 따라서 상기 가장 높은 신뢰도에 대응되는 카테고리를 제1 결정될 타겟의 소속 카테고리로 사용할 수 있고; 이로부터 유추하면, 본 출원의 실시 형태는 복수 개의 결정될 타겟 각각의 소속 카테고리를 결정할 수 있다.
하나의 선택적인 예에 있어서, 본 출원의 실시예는 컨볼루션 뉴럴 네트워크에서의 다른 컨볼루션 계층을 이용하여 복수 개의 결정될 타겟(예를 들어, 모든 결정될 타겟)의 각 소속 카테고리에 대응하는 위치 오프셋 값을 결정할 수 있다.
본 출원의 실시예에서, 결정될 타겟의 각 소속 카테고리에 대응하는 위치 오프셋 값은 결정될 타겟이 각각 적어도 하나의 카테고리에 대한 각 카테고리의 위치 오프셋 값에 의해 획득될 수 있다.
하나의 선택적인 예에 있어서, 본 출원에서의 위치 오프셋 값은 어느 카테고리에 속할 때 결정될 타겟의 위치 정보를 결정하기 위한 것이다. 본 출원에서의 위치 오프셋 값은, 상"?* 오프셋 값, 하방향 오프셋 값, 좌방향 오프셋 값 및 우방향 오프셋 값을 포함하며, 즉 본 출원의 실시 형태는 컨볼루션 계층을 이용하여 각 카테고리의 상"?* 오프셋 값, 하방향 오프셋 값, 좌방향 오프셋 값 및 우방향 오프셋 값에 대한 결정될 타겟을 계산하며; 여기서, 상"?* 오프셋 값은 수직 방향에서의 결정될 타겟의 위측 가장자리의 오프셋을 표시하고, 하방향 오프셋 값은 수직 방향에서의 결정될 타겟의 아래측 가장자리의 오프셋을 표시하며, 좌방향 오프셋 값은 수평 방향에서의 결정될 타겟의 우방향 가장자리의 오프셋을 표시하며, 우방향 오프셋 값은 수평 방향에서의 결정될 타겟의 우방향 가장자리의 오프셋을 표시한다. 예를 들어, 21 가지 카테고리, 제1 물체 카테고리, 제2 물체 카테고리, ??, 제20 물체 카테고리 및 백그라운드 카테고리가 미리 설정되도록 설정하고, 상기 설정의 경우, 제1 결정될 타겟에 대해, 컨볼루션 뉴럴 네트워크에서의 하나의 컨볼루션 계층을 이용하여 제1 물체 카테고리에 대한 제1 결정될 타겟의 상"?* 오프셋 값, 하방향 오프셋 값, 좌방향 오프셋 값 및 우방향 오프셋 값, 제2 물체 카테고리에 대한 제1 결정될 타겟의 상"?* 오프셋 값, 하방향 오프셋 값, 좌방향 오프셋 값 및 우방향 오프셋 값, ??, 제20 물체 카테고리에 대한 제1 결정될 타겟의 상"?* 오프셋 값, 하방향 오프셋 값, 좌방향 오프셋 값 및 우방향 오프셋 값 및 백그라운드 카테고리에 대한 제1 결정될 타겟의 상"?* 오프셋 값, 하방향 오프셋 값, 좌방향 오프셋 값 및 우방향 오프셋 값(총 4Х21 개의 오프셋 값임)을 계산할 수 있으며; 이로부터 유추하면, 본 출원의 실시 형태는 모든 결정될 타겟이 각각 21 개의 카테고리에 대한 상"?* 오프셋 값, 하방향 오프셋 값, 좌방향 오프셋 값 및 우방향 오프셋 값을 계산할 수 있다.
상기 설명으로부터 알수 있다시피, 본 출원의 실시예에서의 결정될 타겟의 소속 카테고리를 결정하는 과정 및 각 카테고리에 대한 결정된 타겟의 위치 오프셋 값을 계산하는 과정, 이 둘 사이는 서로 의존하는 관계를 가지지않으므로, 이 두 과정은 충분히 병행하여 실행될 수 있으므로, 2 개 과정을 순차적으로 실행해야 함으로 인한 시간 비용의 증가를 낮출 수 있으며, 물체 검출의 실시간 속성을 개선하는 것에 있어서 유리하다.
단계 S220에 있어서, 복수 개의 결정될 타겟(예를 들어, 모든 결정될 타겟)의 각 소속 카테고리에 대응하는 위치 오프셋 값을 복수 개의 결정될 타겟의 위치 오프셋 값(예를 들어, 모든 결정될 타겟 각각의 위치 오프셋 값)으로서 사용한다.
하나의 선택적인 예에 있어서, 상기 단계 S220은 메모리에 저장된 상응하는 명령어를 호출함으로써 프로세서에 의해 실행될 수 있거나, 프로세서에 의해 작동되는 위치 오프셋 결정 모듈(620)에 의해 실행될 수 있다.
하나의 선택적인 예에 있어서, 본 출원의 실시 형태는 적어도 하나의 카테고리에 대한 상기 결정된 하나의 결정될 타겟의 소속 카테고리 및 상기 계산된 상기 결정될 타겟의 위치 오프셋 값으로부터, 상기 결정될 타겟의 위치 오프셋 값을 최종적으로 결정할 수 있으며, 즉, 이미 계산된 상기 결정될 타겟이 적어도 하나의 카테고리에 대한 위치 오프셋 값으로부터 상기 결정된 상기 결정될 타겟의 소속 카테고리에 대응되는 위치 오프셋 값을 선택하고, 상기 선택된 위치 오프셋 값을 상기 결정될 타겟의 위치 오프셋 값으로서 사용하며, 이로부터 유추하면, 본 출원의 실시 형태는 복수 개의 결정될 타겟의 위치 오프셋 값을 결정할 수 있다.
하나의 선택적인 예에 있어서, 컨볼루션 뉴럴 네트워크에서의 하나의 컨볼루션 계층을 이용하여 제1 결정될 타겟이 제1 물체 카테고리에 속한다고 결정하도록 설정하고, 컨볼루션 뉴럴 네트워크에서의 다른 컨볼루션 계층을 이용하여 제1 물체 카테고리에 대한 제1 결정될 타겟의 상"?* 오프셋 값, 하방향 오프셋 값, 좌방향 오프셋 값 및 우방향 오프셋 값, 제2 물체 카테고리에 대한 제1 결정될 타겟의 상"?* 오프셋 값, 하방향 오프셋 값, 좌방향 오프셋 값 및 우방향 오프셋 값, ??, 제20 물체 카테고리에 대한 제1 결정될 타겟의 상"?* 오프셋 값, 하방향 오프셋 값, 좌방향 오프셋 값 및 우방향 오프셋 값, 백그라운드 카테고리에 대한 제1 결정될 타겟의 상"?* 오프셋 값, 하방향 오프셋 값, 좌방향 오프셋 값 및 우방향 오프셋 값(총 4Х21 개의 오프셋 값)을 계산하였다고 설정하면, 상기 각 설정의 경우, 본 출원의 실시 형태는 이미 계산된 제1 물체 카테고리에 대한 제1 결정될 타겟의 상"?* 오프셋 값, 하방향 오프셋 값, 좌방향 오프셋 값 및 우방향 오프셋 값을 제1 결정될 타겟의 위치 오프셋 값으로서 사용하며; 이로부터 유추하면, 본 출원의 실시 형태는 모든 결정될 타겟의 위치 오프셋 값을 결정할 수 있다.
단계 S230에 있어서, 복수 개의 결정될 타겟의 소속 카테고리(예를 들어, 모든 결정될 타겟의 소속 카테고리, 또는 일부 결정될 타겟의 소속 카테고리), 복수 개의 결정될 타겟의 위치 오프셋 값(예를 들어, 모든 결정될 타겟의 위치 오프셋 값, 또는 일부 결정될 타겟의 위치 오프셋 값) 및 소속 카테고리에 대한 복수 개의 결정될 타겟의 신뢰도(예를 들어, 모든 결정될 타겟의 소속 카테고리의 신뢰도, 또는 일부 결정될 타겟의 소속 카테고리의 신뢰도)에 따라, 검출될 이미지에서 적어도 하나의 결정될 타겟의 위치 정보와 소속 카테고리를 결정할 수 있다.
하나의 선택적인 예에 있어서, 본 출원에서의 결정될 타겟의 위치 정보는 결정될 타겟의 외측 프레임 위치 정보일 수 있다. 본 출원은 일반적으로 복수 개의 결정될 타겟으로부터 일부 결정될 타겟을 선택하고, 선택된 결정될 타겟의 위치 오프셋 값을 이용하여 외측 프레임을 형성하며, 선택된 결정될 타겟 각각의 소속 카테고리는 즉 상응하는 외측 프레임 소속 카테고리이다.
하나의 선택적인 예에 있어서, 본 출원의 실시 형태는 기설정 신뢰도 요구를 이용하여 일부 결정될 타겟을 선택할 수 있으며, 상기 기설정 신뢰도 요구는 신뢰도 임계값(신뢰도 임계값은 예를 들어 0.8임)일 수 있으며; 예를 들어, 본 출원의 실시 형태는 복수 개의 결정될 타겟으로부터 신뢰도가 신뢰도 임계값(예를 들어 0.8보다 큼)보다 큰 결정될 타겟을 선택할 수 있으며, 또한, 선택된 결정될 타겟의 위치 오프셋 값을 이용하여 상응하는 외측 프레임 위치 정보를 형성할 수 있으며, 선택된 결정될 타겟의 소속 카테고리를 외측 프레임 소속 카테고리로서 사용한다. 또한, 본 출원의 실시 형태는 비율 또는 외측 프레임 개수 임계값을 이용하여 일부 결정될 타겟을 선택할 수 있으며, 본 출원의 실시 형태는 복수 개의 결정될 타겟으로부터 일부 결정될 타겟을 선택하는 구체적인 구현 방식을 한정하지 않는다.
다른 예를 들어, 상기 단계 S210 및 단계 S220에 의해 제1 결정될 타겟의 신뢰도가 0.9로 결정되도록 설정하고, 제1 결정될 타겟이 제1 물체 카테고리에 속하며, 제1 결정될 타겟의 위치 오프셋 값은 각각 y1, y2, x1 및 x2인 것으로 설정하고, 기설정 신뢰도 요구가 신뢰도가 신뢰도 임계값 0.8보다 낮지 않은 경우, 제1 결정될 타겟에 대응되는 이미지 중의 영역, y1, y2, x1 및 x2에 따라 제1 외측 프레임이 이미지에서의 위치 정보를 결정하며, 상기 제1 외측 프레임 소속 카테고리가 제1 물체 카테고리인 것으로 결정한다.
도 3은 본 출원의 실시예에 의해 제공된 물체 검출을 위한 방법의 다른 흐름 모식도이다. 도 3에 도시된 바와 같이, 본 출원의 물체 검출을 위한 방법은 주로, 단계 S300, 단계 S310, 단계 S320 및 단계 S330을 포함한다. 아래에, 도 3의 각 단계를 각각 설명한다.
단계 S300에 있어서, 검출될 이미지의 복수 개의 특징점을 획득하며, 예를 들어, 검출될 이미지의 각 특징점(즉 모든 특징점)을 획득한다.
하나의 선택적인 예에 있어서, 본 출원의 실시예에서 처리될 이미지는 정지 상태의 사진 또는 사진과 같은 이미지일 수 있거나, 동적 상태의 비디오의 비디오 프레임일 수 있다. 본 출원의 실시 형태는 기존의 다양한 방식을 이용하여 검출될 이미지의 특징점을 획득할 수 있으며, 예를 들어, 기존의 VGG16 네트워크 또는 GoogleNet 또는 ResNet을 이용하여 본 출원의 실시 형태의 컨볼루션 뉴럴 네트워크에서의 백본 네트워크를 형성함으로써, 검출될 이미지를 상기 백본 네트워크에 제공함으로써, 상기 백본 네트워크 즉 VGG16 또는 GoogleNet 또는 ResNet 기술에 기반하여 검출될 이미지의 복수 개의 특징점을 출력한다.
하나의 선택적인 예에 있어서, 본 출원의 실시예는 백본 네트워크에 의해 출력된 복수 개의 특징점을 최종적으로 획득된 검출될 이미지의 복수 개의 특징점으로서 사용할 수 있고, 본 출원의 실시예는 또한 백본 네트워크에 의해 출력된 복수 개의 특징점에 대해 필터링 처리를 진행할 수 있어, 백본 네트워크에 의해 출력된 복수 개의 특징점에 기반하여 동일한 개수를 갖는 새로운 특징점을 형성하며, 복수 개의 새로운 특징점을 최종적으로 획득된 검출될 이미지의 복수 개의 특징점으로서 사용한다. 상기 필터링 처리의 구현 방식은, 백본 네트워크에 의해 출력된 복수 개의 특징점이 하나의 특징 맵을 형성하도록 설정하며, 컨볼루션 뉴럴 네트워크에서의 필터 계층에 의해 슬라이딩 윈도우(예를 들어, 3Х3의 슬라이딩 윈도우)를 이용하여 특징 맵으로부터 미리 결정된 개수의 특징점(예를 들어, 9개 특징점)을 순차적으로 선택하며, 매번 선택된 모든 특징점을 이용하여 하나의 새로운 특징점을 형성하고, 필터 계층에 의해 획득된 모든 새로운 특징점을 출력하며, 필터 계층에 의해 출력된 모든 새로운 특징점은 마찬가지로 하나의 특징 맵을 형성할 수 있으며, 그러나, 새로운 특징 맵에서의 각 특징점에 대응하여 검출될 이미지 중의 영역은 더 클 수 있다. 본 출원은 필터 계층에 의해 특징 맵에 대해 필터링 처리를 진행하는 구체적인 구현 과정을 한정하지 않는다. 본 출원의 실시예는 백본 네트워크에 의해 출력된 복수 개의 특징점에 대해 필터링 처리를 진행하여 새로운 특징점을 형성하며, 외측 프레임 위치 정보 및 외측 프레임 소속 카테고리를 더욱 정확하게 결정할 수 있어, 물체 검출의 정확성을 개선하는 것에 있어서 유리하다.
단계 S310에 있어서, 각 특징점에 대해, 상기 특징점의 적어도 하나의 기준 프레임 소속 카테고리 및 신뢰도를 결정하고, 상기 특징점의 적어도 하나의 기준 프레임이 각 카테고리에 대한 위치 오프셋 값을 결정한다.
하나의 선택적인 예에 있어서, 본 출원의 실시예에서, 컨볼루션 뉴럴 네트워크에서의 하나의 컨볼루션 계층을 이용하여 상기 특징점의 적어도 하나의 기준 프레임 소속 카테고리 및 신뢰도를 결정할 수 있다. 본 출원의 실시예에서의 컨볼루션 뉴럴 네트워크는 많은 라벨링된 이미지 샘플을 이용하여 훈련된 것이며, 상기 컨볼루션 뉴럴 네트워크의 훈련 과정의 하나의 선택적인 예는 하기 실시 형태에서의 설명을 참조할 수 있다. 본 출원의 실시예에서의 컨볼루션 뉴럴 네트워크는, 백본 네트워크, 필터 계층 및 적어도 2 개의 컨볼루션 계층(예를 들어, 제1 컨볼루션 계층 및 제2 컨볼루션 계층)을 포함하지만 이에 한정되지는 않는다.
하나의 선택적인 예에 있어서, 본 출원의 실시 형태에 따르면, 기준 프레임(즉, 앵커(Anchor), 기준점)의 개수 및 크기를 미리 정의하며, 즉 기준 프레임의 개수 및 크기는 모두 알려진 것이며, 기준 프레임이 이미지에서의 위치는 기준 프레임에 대응되는 특징점과 관련된다. 일반적인 상황에서, 복수 개의 기준 프레임의 크기는 완전히 동일하지는 않으며, 즉, 복수 개의 기준 프레임의 면적은 완전히 동일하지는 않으며, 예를 들어, 복수 개의 기준 프레임의 길이는 차이가 있고, 복수 개의 기준 프레임의 너비는 차이가 있으며, 복수 개의 기준 프레임의 가로세로비는 차이가 있다.
하나의 선택적인 예에 있어서, 본 출원의 실시 형태는 3 가지 상이한 길이를 미리 설정할 수 있고, 3 가지 상이한 가로세로비를 미리 설정할 수 있으며, 따라서, 미리 설정된 3 가지 상이한 길이 및 3 가지 상이한 가로세로비를 이용하여, 9 개의 상이한 형상의 기준 프레임을 형성할 수 있으며; 예를 들어, 미리 설정된 3 가지 상이한 길이는 각각 64, 128 및 256(단위는 픽셀임), 미리 설정된 3 가지 상이한 가로세로비는 각각 0.5, 1.0 및 2.0일 수 있으며, 그러면, 상기 3 가지 상이한 길이 및 3 가지 상이한 가로세로비에 의해 형성된 9 개의 기준 프레임은 64Х32, 64Х64, 64Х128, 128Х64, 128Х128, 128Х256, 256Х128, 256Х256 및 256Х512으로 표시될 수 있다.
또 다른 선택적인 예에 있어서, 본 출원의 실시 형태는 3 가지 상이한 너비를 미리 설정할 수 있고, 3 가지 상이한 가로세로비를 미리 설정할 수 있으며, 따라서 미리 설정된 3 가지 상이한 너비 및 3 가지 상이한 가로세로비를 이용하여, 9 개의 상이한 형상의 기준 프레임을 형성할 수 있다.
또 다른 선택적인 예에 있어서, 본 출원의 실시 형태는 9 개의 기준 프레임에 대해 각각의 길이 및 너비를 각각 미리 설정하여, 9 개의 형상의 기준 프레임을 명확하게 결정할 수 있다.
본 출원에서의 기준 프레임의 개수 및 각 기준 프레임의 크기는 실제 경험에 따라 설정될 수 있으며, 본 출원의 실시 형태는 기준 프레임의 구체적인 개수를 한정하지 않으며, 기준 프레임의 크기도 한정하지 않는다.
하나의 선택적인 예에 있어서, 본 출원의 실시 형태에서, 적어도 3 가지 카테고리, 예를 들어, 적어도 2 가지 물체 카테고리 및 하나의 백그라운드 카테고리가 미리 설정되어 있다. 예를 들어, 사람 개, 기차 및 의자와 같은 상이한 종류의 물체에 대해 20 가지 물체 카테고리를 미리 설정하고, 백그라운드에 대해 백그라운드 카테고리를 미리 설정하며, 총 21 가지 카테고리이다. 카테고리의 개수 및 기준 프레임의 개수는 컨볼루션 뉴럴 네트워크에서의 상응하는컨볼루션 계층의 출력 차원을 결정하며, 예를 들어, 21 가지 카테고리가 미리 설정된 경우, RPN에서 신뢰를 예측하기 위한 컨볼루션 계층의 출력 차원은 21Х9ХhХw일 수 있으며, 여기서, 21은 21 가지 카테고리를 표시하고, 9는 하나의 특징점의 9 개의 기준 프레임을 표시하고, h는 특징 맵의 높이를 표시하며, w는 특징 맵의 너비를 표시한다. 본 출원은 물체 카테고리의 개수 및 물체 카테고리가 대상으로 하는 물체의 구체적인 내용을 한정하지 않는다.
하나의 선택적인 예에 있어서, 본 출원의 실시 형태는 신뢰도에 대한 컨볼루션 계층의 계산을 통해 기준 프레임 소속 카테고리를 결정할 수 있으며, 예를 들어, RPN 중의 신뢰도를 예측하기 위한 상응하는 컨볼루션 계층에 의해 신뢰도를 계산함으로써 기준 프레임 소속 카테고리를 결정한다.
하나의 선택적인 예에 있어서, 특징맵의 제1 특징점에 대해, 제1 특징점에 대응되는 9 개의 기준 프레임, 즉 제1 기준 프레임 내지 제9 기준 프레임을 설정하고, 21 가지 카테고리, 즉 제1 물체 카테고리, 제2 물체 카테고리, ??, 제20 물체 카테고리 및 백그라운드 카테고리가 미리 설정되도록 설정하고, 상기 설정의 경우, 컨볼루션 뉴럴 네트워크에서의 하나의 컨볼루션 계층을 이용하여 제1 물체 카테고리에 속하는 제1 기준 프레임의 신뢰도, 제2 물체 카테고리에 속하는 제1 기준 프레임의 신뢰도, ??제20 물체 카테고리에 속하는 제1 기준 프레임의 신뢰도 및 백그라운드 카테고리에 속하는 제1 기준 프레임의 신뢰도(총 21 개의 신뢰도임)를 계산할 수 있으며, 이 21 개의 신뢰도를 비교함으로써, 하나의 가장 높은 신뢰도를 결정할 수 있으며, 따라서 상기 가장 높은 신뢰도에 대응되는 카테고리를 제1 기준 프레임 소속 카테고리로서 사용할 수 있으며; 이로부터 유추하면, 본 출원의 실시 형태는 제1 특징점의 제1 기준 프레임 내지 제9 기준 프레임 각각의 소속 카테고리(총 9개의 카테고리)를 결정할 수 있으며, 더 나아가, 본 출원의 실시 형태는 특징 맵에서의 모든 특징점의 제1 기준 프레임 내지 제9 기준 프레임 각각의 소속 카테고리(총 NХ9 개의 카테고리, 여기서 N은 특징 맵에 포함된 특징점의 개수)를 결정할 수 있다.
하나의 선택적인 예에 있어서, 본 출원에서의 위치 오프셋 값은 일반적으로, 상"?* 오프셋 값, 하방향 오프셋 값, 좌방향 오프셋 값 및 우방향 오프셋 값을 포함하며, 본 출원의 실시 형태는 다른 컨볼루션 계층을 이용하여 각 카테고리에 대한 기준 프레임의 상"?* 오프셋 값, 하방향 오프셋 값, 좌방향 오프셋 값 및 우방향 오프셋 값을 계산할 수 있으며; 여기서, 상"?* 오프셋 값은 수직 방향에서의 기준 프레임의 위측 가장자리의오프셋을 표시하고, 하방향 오프셋 값은 수직 방향에서의 기준 프레임의 아래측 가장자리의 오프셋을 표시하며, 좌방향 오프셋 값은 수평 방향에서의 기준 프레임의 좌방향 가장자리의 오프셋을 표시하며, 우방향 오프셋 값은 수평 방향에서의 기준 프레임의 우방향 가장자리의 오프셋을 표시한다.
예를 들어, 특징맵의 제1 특징점에 대해, 제1 특징점에 대응되는 9 개의 기준 프레임, 즉 제1 기준 프레임 내지 제9 기준 프레임을 설정하고, 21 가지 카테고리, 즉 제1 물체 카테고리, 제2 물체 카테고리, ??, 제20 물체 카테고리 및 백그라운드 카테고리가 미리 설정되도록 설정하고, 상기 설정의 경우, 컨볼루션 뉴럴 네트워크에서의 하나의 컨볼루션 계층을 이용하여 제1 물체 카테고리에 대한 제1 기준 프레임의 상"?* 오프셋 값, 하방향 오프셋 값, 좌방향 오프셋 값 및 우방향 오프셋 값, 제2 물체 카테고리에 대한 제1 기준 프레임의 상"?* 오프셋 값, 하방향 오프셋 값, 좌방향 오프셋 값和우방향 오프셋 값, ??, 제20 물체 카테고리에 대한 제1 기준 프레임의 상"?* 오프셋 값, 하방향 오프셋 값, 좌방향 오프셋 값 및 우방향 오프셋 값 및 백그라운드 카테고리에 대한 제1 기준 프레임의 상"?* 오프셋 값, 하방향 오프셋 값, 좌방향 오프셋 값 및 우방향 오프셋 값(총 4Х21 개의 오프셋 값임)을 계산할 수 있으며; 이로부터 유추하면, 본 출원의 실시 형태는 21 개의 카테고리 각각에 대한 제1 특징점의 제1 기준 프레임 내지 제9 기준 프레임의 상"?* 오프셋 값, 하방향 오프셋 값, 좌방향 오프셋 값 및 우방향 오프셋 값(총 9Х4Х21 개의 오프셋 값임)을 계산할 수 있으며, 더 나아가, 본 출원의 실시 형태는 특징 맵에서의 모든 특징점의 21 개의 카테고리에 대한 제1 기준 프레임 내지 제9 기준 프레임의 상"?* 오프셋 값, 하방향 오프셋 값, 좌방향 오프셋 값 및 우방향 오프셋 값(총 NХ9Х4Х21 개의 오프셋 값임, 여기서 N은 특징 맵에 포함된 특징점의 개수임)이다.
상기 설명으로부터 알수 있다시피, 본 출원의 실시예에서의 기준 프레임 소속 카테고리를 결정하는 과정(즉 단계 S310) 및 적어도 하나의 카테고리에 대한 기준 프레임의 위치 오프셋 값을 계산하는 과정(즉 단계 S310), 이 두 과정 사이는 서로 독립적이며, 따라서, 이 2 개 과정을 순차적으로 실행해야 함으로 인한 시간 비용의 증가를 낮출 수 있으며, 물체 검출의 실시간 속성을 개선하는 것에 있어서 유리하다.
단계 S320에 있어서, 복수 개의 특징점의 복수 개의 기준 프레임에 대해, 상기 기준 프레임 소속 카테고리에 대응되는 위치 오프셋 값을 상기 기준 프레임의 위치 오프셋 값으로 사용한다.
하나의 선택적인 예에 있어서, 본 출원의 실시 형태는 적어도 하나의 카테고리에 대한 상기 결정된 하나의 기준 프레임의 소속 카테고리 및 상기 계산된 상기 기준 프레임의 위치 오프셋 값으로부터, 상기 기준 프레임의 위치 오프셋 값을 최종적으로 결정할 수 있으며, 즉, 각 카테고리에 대한 위에서 계산된 상기 기준 프레임의 위치 오프셋 값으로부터 상기 결정된 상기 기준 프레임의 소속 카테고리에 대응되는 위치 오프셋 값을 선택하고, 상기 선택된 위치 오프셋 값을 상기 기준 프레임의 위치 오프셋 값으로서 사용하며, 따라서, 본 출원의 실시 형태는 복수 개의 기준 프레임의 위치 오프셋 값을 결정할 수 있다.
하나의 선택적인 예에 있어서, 컨볼루션 뉴럴 네트워크에서의 하나의 컨볼루션 계층을 이용하여 제1 특징점의 제1 기준 프레임이 제1 물체 카테고리에 속한다는 것을 결정하도록 설정하고, 컨볼루션 뉴럴 네트워크에서의 다른 컨볼루션 계층을 이용하여 제1 특징점의 제1 물체 카테고리에 대한 제1 기준 프레임의 상"?* 오프셋 값, 하방향 오프셋 값, 좌방향 오프셋 값 및 우방향 오프셋 값, 제2 물체 카테고리에 대한 제1 특징점의 제1 기준 프레임의 상"?* 오프셋 값, 하방향 오프셋 값, 좌방향 오프셋 값 및 우방향 오프셋 값, ??, 제1 특징점의 제20 물체 카테고리에 대한 제1 기준 프레임의 상"?* 오프셋 값, 하방향 오프셋 값, 좌방향 오프셋 값 및 우방향 오프셋 값, 제1 특징점의 백그라운드 카테고리에 대한 제1 기준 프레임의 상"?* 오프셋 값, 하방향 오프셋 값, 좌방향 오프셋 값 및 우방향 오프셋 값(총 4Х21 개의 오프셋 값)을 계산하며, 상기 설정의 경우, 본 출원의 실시 형태는 계산된 제1 특징점의 제1 물체 카테고리에 대한 제1 기준 프레임의 상"?* 오프셋 값, 하방향 오프셋 값, 좌방향 오프셋 값 및 우방향 오프셋 값을 제1 특징점의 제1 기준 프레임의 위치 오프셋 값으로서 사용하며; 이로부터 유추하면, 본 출원의 실시 형태는 제1 특징점의 제1 기준 프레임 내지 제9 기준 프레임의 위치 오프셋 값을 결정하며, 더 나아가 본 출원의 실시 형태는 특징 맵에서의 모든 특징점의 제1 기준 프레임 내지 제9 기준 프레임의 위치 오프셋 값(총 NХ9 개의 위치 오프셋 값, 즉 NХ9Х4 개의 오프셋 값, 여기서 N은 특징 맵에 포함된 특징점의 개수임)이다.
단계 S330에 있어서, 복수 개의 특징점의 기준 프레임 소속 카테고리, 기준 프레임의 위치 오프셋 값 및 기준 프레임의 신뢰도에 따라 검출될 이미지에 포함된 각 외측 프레임 위치 정보 및 외측 프레임 소속 카테고리를 결정한다.
하나의 선택적인 예에 있어서, 본 출원은 일반적으로 복수 개의 특징점의 기준 프레임로부터 일부 기준 프레임을 선택하고, 선택된 일부 기준 프레임의 위치 오프셋 값을 이용하여 외측 프레임을 형성하며, 선택된 일부 기준 프레임 각각의 소속 카테고리는 즉 상응하는 외측 프레임 소속 카테고리이다.
하나의 선택적인 예에 있어서, 본 출원은 기설정 신뢰도 요구를 이용하여 일부 기준 프레임을 선택할 수 있으며, 상기 기설정 신뢰도 요구는 신뢰도 임계값(신뢰도 임계값은 예를 들어 0.8임) 등일 수 있으며; 하나의 선택적인 예에 있어서, 본 출원의 실시 형태는 모든 특징점의 각 기준 프레임로부터 신뢰도가 신뢰도 임계값(예를 들어, 0.8보다 크거나 같음)보다 큰 기준 프레임을 선택할 수 있으며, 그리고, 선택된 각 기준 프레임의 위치 오프셋 값을 이용하여 상응하는 특징점의 외측 프레임 위치 정보를 형성할 수 있으며, 선택된 각 기준 프레임 소속 카테고리를 외측 프레임 소속 카테고리로서 사용한다. 또한, 본 출원의 실시 형태는 비율 또는 외측 프레임 개수임계값을 이용하여 일부 기준 프레임을 선택할 수도 있으며, 본 출원의 실시 형태는 적어도 하나의 특징점의 기준 프레임로부터 일부 기준 프레임을 선택하는 구체적인 구현 방식을 한정하지 않는다.
예를 들어, 상기 단계 S310에 의해 제1 특징점의 제1 기준 프레임의 신뢰도가 0.9로 결정되도록 설정하고, 제1 특징점의 제1 기준 프레임은 제1 물체 카테고리에 속하며, 제1 특징점의 제1 기준 프레임의 위치 오프셋 값은 각각 y1, y2, x1 및 x2이며, 기설정 신뢰도 요구가 신뢰도 임계값 0.8보다 낮지 않은 경우, 제1 특징점에 대응되는 이미지 중의 영역, 제1 기준 프레임의 길이와 너비 및 y1, y2, x1, x2에 따라 제1 외측 프레임이 이미지 중의 위치 정보를 결정하며, 상기 제1 외측 프레임 소속 카테고리를 제1 물체 카테고리로서 결정한다.
아래에 특징점의 기준 프레임을 결정될 타겟으로서 사용하는 것을 예로써, 본 출원의 컨볼루션 뉴럴 네트워크의 훈련 과정을 설명한다. 도 4는 본 출원의 실시예에 의해 제공된 물체 검출을 위한 방법에서 컨볼루션 뉴럴 네트워크에 대해 훈련을 진행하는 하나의 예시적 흐름도이다. 도 4에 도시된 바와 같이, 본 출원의 실시 형태의 훈련 과정은, 단계 S400, 단계 S410, 단계 S420, 단계 S430, 단계 S440 및 단계 S450을 포함한다. 아래에 도 5를 참조하여 도 4의 단계를 각각 설명한다.
하나의 선택적인 예에 있어서, 도 4에 포함된 단계 S400, 단계 S410, 단계 S420, 단계 S430, 단계 S440 및 단계 S450은 프로세서에 의해 메모리에 저장된 대응되는 명령어를 호출하여 실행될 수 있거나, 프로세서에 의해 작동되는 훈련 모듈에 의해 실행될 수 있다.
단계 S400에 있어서, 샘플 세트로부터 하나의 이미지 샘플을 획득한다. 단계 S410으로 이동한다.
하나의 선택적인 예에 있어서, 본 출원의 실시예에서의 샘플 세트는 일반적으로 비어있지 않으며, 일반적으로 많은 이미지 샘플을 포함한다. 샘플 세트에서의 이미지 샘플은 일반적으로 라벨링되며, 예를 들어, 이미지 샘플은 모두 복수 개의 외측 프레임 위치 정보 및 표준 외측 프레임 소속 카테고리 등에 라벨링되며; 외측 프레임 위치 정보는, 외측 프레임 대각선 상의 2 개의 꼭지점이 이미지 샘플 중에서의 2차원 좌표 정보 등을 포함할 수 있다. 이미지 샘플의 라벨링은 일반적으로 수동으로 미리 라벨링된 것이다. 본 출원의 실시 형태는 샘플 세트에서 이미지 샘플을 설치하는 배열 순서로부터 하나의 이미지 샘플을 선택하거나, 샘플 세트로부터 하나의 이미지 샘플을 무작위로 선택할 수 있다.
단계 S410에 있어서, 컨볼루션 뉴럴 네트워크에서의 백본 네트워크를 통해 상기 이미지 샘플의 특징 맵, 즉 도 5 중의 특징 맵(Feature Map)을 생성한다. 단계 S420으로 이동한다. 도 5는 본 출원의 실시예에 의해 제공된 물체 검출을 위한 방법에서 컨볼루션 뉴럴 네트워크에 대해 훈련을 진행하는 하나의 예의 훈련 모식도이다. 도 4에서의 하나 또는 복수 개의 단계는 도 5를 참조하여 이해할 수 있다.
단계 S420에 있어서, 컨볼루션 뉴럴 네트워크에서의 필터 계층에 의해 상기 특징 맵에 대해 필터링 처리를 진행하며(예를 들어, 도 5 중의 컨볼루션(Conv) 계층을 이용하여 필터링 처리를 구현함), 따라서, 백본 네트워크에 의해 출력된 특징 맵을 새로운 특징 맵으로 전환하고, 백본 네트워크에 의해 출력된 특징 맵 및 새로운 특징 맵에 포함된 특징점의 개수는 동일하다. 단계 S430, 단계 S440 및 단계 S450으로 이동한다.
단계 S430에 있어서, 필터링 처리 후의 특징 맵에서의 각 특징점의 각 기준 프레임에 대해, 컨볼루션 뉴럴 네트워크에서의 하나의 컨볼루션 계층(예를 들어, 제1 컨볼루션 계층)을 이용하여 적어도 하나의 카테고리에 속하는 상기 특징점의 상기 기준 프레임의 신뢰도를 계산하며, 예를 들어, 도 5에서 컨볼루션 계층을 이용하여 신뢰도(cls_score)를 획득하고, 적어도 하나의 카테고리에 각각 속하는 하나의 기준 프레임의 신뢰도에 따라 상기 기준 프레임 카테고리를 결정하며, 예를 들어, 가장 높은 신뢰도에 대응되는 카테고리를 상기 기준 프레임 소속 카테고리로서 사용한다. 단계 S460으로 이동한다.
단계 S440에 있어서, 필터링 처리 후의 특징 맵에서의 각 특징점의 각 기준 프레임에 대해, 컨볼루션 뉴럴 네트워크에서의 하나의 컨볼루션 계층(예를 들어, 제2 컨볼루션 계층)을 이용하여 적어도 하나의 카테고리에 대한 상기 특징점의 기준 프레임의 위치 오프셋 값을 계산/예측하며, 예를 들어, 도 5에서 컨볼루션 계층을 이용하여 위치 오프셋 값(loc_pred)을 획득하고, 상기 예측된 위치 오프셋 값은, 상"?* 오프셋 값, 하방향 오프셋 값, 좌방향 오프셋 값 및 우방향 오프셋 값을 포함할 수 있다. 단계 S470으로 이동한다.
단계 S450에 있어서, 필터링 처리 후의 특징 맵에서의 하나의 특징점의 하나의 기준 프레임에 대해, 미리 설정된 보조 계층을 이용하여 상응하는 표준 외측 프레임에 대한 상기 기준 프레임의 표준 위치 오프셋 값을 계산할 수 있으며, 예를 들어, 보조 계층은 특징점의 기준 프레임 및 상기 특징점에 대응되는 표준 외측 프레임의 상"?* 오프셋 값, 하방향 오프셋 값, 좌방향 오프셋 값 및 우방향 오프셋 값을 계산한다. 또한, 미리 설정된 보조 계층을 이용하여 복수 개의 특징점의 기준 프레임 소속 카테고리를 상응하는 표준 외측 프레임 소속 카테고리로 설정할 수 있다. 단계 S460 및 단계 S470으로 이동한다.
선택적으로, 하나의 특징점의 하나의 기준 프레임에 대해, 보조 계층은 상기 기준 프레임와 적어도 하나의 표준 외측 프레임의 오버랩 면적을 계산할 수 있으며, 오버랩 면적이 더 큰(예를 들어, 가장 큰) 표준 외측 프레임을 상기 기준 프레임에 대응되는 표준 외측 프레임로 사용하고, 오버랩 면적이 큰(예를 들어, 가장 큰) 표준 외측 프레임 소속 카테고리를 상기 기준 프레임소속 카테고리로 사용한다.
보조 계층 미리 설정된 기준 프레임 구성 정보에 따라 기준 프레임의 길이 및 너비를 명확하게 인지할 수 있으므로, 본 출원에서의 보조 계층은 특징점 및 기준 프레임의 길이 및 너비에 따라 상기 기준 프레임의 이미지 샘플 중의 위치를 결정할 수 있으며, 이미지 샘플 중의 적어도 하나의 표준 외측 프레임이 모두 수동으로 미리 샘플링되므로, 보조 계층은 표준 외측 프레임의 이미지 샘플 중의 위치 정보(예를 들어, 표준 외측 프레임이 대각선 방향에서의 2 개의 꼭지점의 좌표 등임)를 인지할 수 있으며, 따라서, 본 출원에서의 보조 계층은 상기 기준 프레임 및 이에 대응되는 표준 외측 프레임 사이의 위치 오프셋 값(예를 들어, 도 5의 보조 계층을 이용하여 획득된 앵커 타겟(Anchor Target) C21)을 정확하고 신속하게 계산할 수 있으며, 상기 계산된 위치 오프셋 값은 즉 표준 위치 오프셋 값이고, 상기 표준 위치 오프셋 값은, 표준 상"?* 오프셋 값, 표준 하방향 오프셋 값, 표준 좌방향 오프셋 값 및 표준 우방향 오프셋 값을 포함할 수 있다.
설명해야 할 것은, 본 출원의 실시예는 복수 개의 특징점의 기준 프레임로부터 선택된 일부 기준 프레임에 대해 표준 위치 오프셋 값을 계산하며, 즉, 모든기준 프레임이 위치 오프셋 값 사이의 오차의 컨볼루션 뉴럴 네트워크에서의 역방향으로의 전파 과정에 참여하는 것은 아니며; 상기 경우, 본 출원에서의 보조 계층은 기준 프레임 및 표준 외측 프레임의 오버랩 면적에 따라 표준 위치 오프셋 값의 계산을 진행해야 하는 기준 프레임을 선택하며, 선택적으로, 하나의 기준 프레임에 대해, 보조 계층은 각 표준 외측 프레임의 오버랩 면적이 가장 큰 표준 외측 프레임을 상기 기준 프레임에 대응되는 표준 외측 프레임로서 사용하여, 보조 계층은 기준 프레임에 대응되는 표준 외측 프레임을 획득할 수 있으며, 그리고, 보조 계층은 각 기준 프레임 및 이에 대응되는 표준 외측 프레임의 오버랩 면적이 미리 결정된 요구를 만족시키는지 여부에 따라, 복수 개의 기준 프레임을 3 가지 타입, 즉 양의 샘플 타입(즉 오버랩 면적 비율이 제1 비율 임계값보다 큰 타입), 음의 샘플 타입(즉 오버랩 면적 비율이 제2 비율 임계값보다 작은 타입) 및 무시될 샘플 타입(즉 오버랩 면적 비율이 제1 비율 임계값과 제2 비율 임계값 사이에 있는 타입)으로 구분할 수 있으며, 그리고, 보조 계층은 양의 샘플 타입으로부터 일부 기준 프레임을 선택(예를 들어, 무작위로 선택)하며, 음의 샘플 타입으로부터 일부 기준 프레임을 선택(예를 들어, 무작위로 선택)하며, 보조 계층은 양의 샘플 타입으로부터 선택된 기준 프레임의 개수 및 음의 샘플 타입으로부터 선택된 기준 프레임의 개수는 일반적으로 미리 설정된 비율, 예를 들어, 3: 1을 만족해야 하며; 그리고, 보조 계층은 선택된 기준 프레임에 대해 라벨링을 진행할 수 있으므로, 후속적으로 손실 계층이 상기 라벨에 따라 상응하는 기준 프레임에 대한 위치 오프셋 값 사이의 오차를 계산할 수 있다.
상기 오버랩 면적 비율은, 하나의 결정될 타겟에 대해, 상기 결정될 타겟과 그와 오버랩되는 면적이 가장 큰 표준 외측 프레임 사이의 오버랩 면적 및 상기 결정될 타겟과 표준 외측 프레임이 공동으로 커버되는 면적의 비율 값이, 예를 들어, 결정될 타겟 A의 면적이 3이고, 결정될 타겟 A에 대응되는 표준 외측 프레임 B의 면적이 4이며, 결정될 타겟 A 및 표준 외측 프레임 B 사이의 오버랩 면적이 2이면, 오버랩 면적 비율은 2/(3+4-2)=2/5이다. 본 출원의 실시예에서의 제1 비율 임계값은 제2 비율 임계값보다 크며, 하나의 선택적인 예에 있어서, 제1 비율 임계값은 0.7일 수 있으며, 제2 비율 임계값은 0.3일 수 있다. 본 출원의 실시예는 제1 비율 임계값 및 제2 비율 임계값의 구체적인 값을 한정하지 않는다.
단계 S460에 있어서, 특징 맵에서의 특징점에 대해, 하나의 손실 계층을 이용하여 상응하는 표준 외측 프레임 소속 카테고리에 속하는 상기 특징점의 적어도 하나의 기준 프레임의 신뢰도 및 표준 신뢰도 사이의 오차를 계산한다. 하나의 선택적인 예에 있어서, 단계 S430의 컨볼루션 계층에 의해 계산된 특징점의 적어도 하나의 카테고리에 각각 속하는 적어도 하나의 기준 프레임의 신뢰도는 모두 도 5의 소프트맥스 손실(Softmax With Loss) 계층으로 전송되며, 단계 S450에서의 보조 계층은 각 특징점의 각 기준 프레임에 의해 설정된 소속 카테고리도 도 5의 Softmax With Loss 계층으로 전송되어, Softmax With Loss 계층은 보조 계층에 의해 전송된 정보 및 컨볼루션 계층에 의해 전송된 정보에 따라 상응하는 표준 외측 프레임 소속 카테고리에 속하는 각 특징점의 각 기준 프레임의 신뢰도와 표준 신뢰도 사이의 오차를 계산하며, 상기 오차는 백본 네트워크까지 Softmax With Loss 계층을 통해 역방향으로 전파된다.
단계 S470에 있어서, 특징 맵에서의 하나의 특징점의 하나의 기준 프레임에 대해, 하나의 손실 계층(예를 들어, 평활 손실(smooth loss) 계층)을 이용하여 단계 S440에서 예측된 위치 오프셋 값 및 단계 S450에서 계산된 상응하는 표준 위치 오프셋 값 사이의 오차를 계산한다. 선택적으로, smooth loss 계층은 보조 계층의 라벨에 따라 상응하는 예측된 위치 오프셋 값 및 계산된 상응하는 표준 위치 오프셋 값 사이의 오차를 계산하며, 상기 오차는 smooth loss 계층을 통해 백본 네트워크(한번의 반복 과정이 완료됨)까지 역방향으로 전파된다. 단계 S480으로 이동한다.
단계 S480에 있어서, 오차가 요구에 부합되는지 및 훈련을 계속할지 여부를 결정하고, 오차가 요구에 부합되고, 또한 훈련을 계속할 필요가 없으면, 단계 S490으로 진행하고; 훈련을 계속해야 하는 경우(오차가 요구에 부합되는지 여부에 관게 없이), 단계 S400으로 복귀하며; 오차가 요구에 부합되지 않고 또한 훈련을 계속할 필요가 없으면, 단계 S481으로 이동한다.
본 출원의 실시예에서의 훈련을 계속할지 여부는, 반복 횟수(즉, 이미지 샘플 세트로부터 획득된 이미지 샘플의 개수)에 의해 판단하며, 예를 들어, 반복 횟수가 미리 결정된 개수에 도달한 경우, 훈련을 계속할 필요가 없으며, 반복 횟수가 미리 결정된 개수에 도달하지 않은 겨우, 훈련을 계속해야 한다고 결정한다. 본 출원의 실시예에서의 오차가 요구에 부합되는지 여부는 오차가 미리 결정된 범위에 속하는지 여부에 의해 판단할 수 있으며, 예를 들어, 현재 오차가 미리 결정된 범위에 있으면, 현재 오차가 수용될 수 있다고 결정하며, 컨볼루션 뉴럴 네트워크는 성공적으로 훈련을 완료하며, 현재 오차가 미리 결정된 범위에 속하지 않으면, 현재 오차가 수용될 수 없고, 컨볼루션 뉴럴 네트워크는 훈련에 실패한다.
단계 S481에 있어서, 컨볼루션 뉴럴 네트워크의 훈련은 성공적으로 완료되지 못하고, 이번 훈련 과정은 종료된다.
선택적으로, 샘플 세트에서의 이미지 샘플이 모두 훈련을 위한 것이거나 판독된 샘플 개수가 미리 결정된 개수에 도달하였으나, 계산된 오차가 여전히 요구에 부합되지 않으면, 이번 훈련 과정이 종료되었지만, 컨볼루션 뉴럴 네트워크는 성공적으로 훈련되지 않았으며, 후속으로 컨볼루션 뉴럴 네트워크에 대해 훈련을 계속 진행할 수 있다.
단계 S490에 있어서, 컨볼루션 뉴럴 네트워크의 훈련은 성공적으로 완료되며, 이번 훈련 과정은 종료된다.
본 출원은 계산된 오차가 요구에 부합될 때까지, 오차의 계산 과정 및 오차의 역방향으로 전파 과정을 교대로 실행함으로써, 컨볼루션 뉴럴 네트워크에 대해 훈련을 진행하여, 컨볼루션 뉴럴 네트워크의 훈련 과정을 성공적으로 완료한다.
또한, 본 출원은 성공적으로 훈련된 컨볼루션 뉴럴 네트워크에 대해 테스트를 진행할 수 있다. 훈련된 컨볼루션 뉴럴 네트워크에 대해 테스트를 진행하는 과정과 상기 물체 검출을 위한 방법에서의 단계는 동일하며, 평균 정밀도(Average Precision, AP) 및 평균 회수율(Recall, 즉 모든 외측 프레임에서 표준 외측 프레임와 오버랩되는 백분율이 미리 결정된 임계값의 백분율을 초과함) 등 파라미터를 계산함으로써, 본 출원의 컨볼루션 뉴럴 네트워크의 물체 검출 성능을 가늠할 수 있다.
선택적으로, 본 출원은 하나의 컨볼루션 계층을 이용하여 복수 개의 특징점의 기준 프레임 소속 카테고리를 경정한 후, 기준 프레임에 대해 비최대 억제(non maximum suppression, NMS) 처리를 진행할 수 있으며, 즉 기준 프레임에서 면적 오버랩 비율이 일정한 임계값을 초과하는 기준 프레임을 제거하고, 여기서, 면적 오버랩 비율은, 2 개의 기준 프레임의 교차 부분의 면적χ(2 개의 기준 프레임의 면적의 합-2 개의 기준 프레임의 교차 부분 면적 프레임의 교차 부분의 면적)이며, 상기 임계값은 0.3 등일 수 있으며; 그리고, 본 출원은, 훈련된 컨볼루션 뉴럴 네트워크의 물체 검출 성능을 인지하기 위해, 면적 오버랩 비율이 임계값을 초과하는 기준 프레임을 제거한 후의 기준 프레임로부터 신뢰도가 가장 높은 300 개의 기준 프레임을 선택하여 AP 및 Recall 등을 계산한다.
본 기술분야의 통상의 기술자는 상기 방법 실시예를 구현하기 위한 모든 또는 일부 동작은 프로그램 명령어와 관련되는 하드웨어를 통해 완성되며, 전술한 프로그램은 컴퓨터 판독 가능 저장 매체에 저장될 수 있으며, 상기 프로그램이 실행될 때, 실행은 상기 방법 실시예의 동작을 포함하며; 전술한 저장 매체는 판독 전용 메모리(Read Only Memory, ROM), 랜덤 액세스 메모리(Random Access Memory, RAM), 자기 디스크 또는 광 디스크와 같은 프로그램 코드를 저장할 수 있는 다양한 매체를 포함한다.
도 6은 본 출원의 실시예에 의해 제공된 물체 검출을 위한 장치의 하나의 구조 모식도이다. 상기 실시 형태의 장치는 본 출원의 상기 각 방법 실시 형태를 구현하기 위한 것일 수 있다. 도 6에 도시된 바와 같이, 상기 실시 형태의 장치는 주로, 결정될 타겟 획득 모듈(600), 카테고리 및 위치 오프셋 값 예측 모듈(610), 위치 오프셋 결정 모듈(620) 및 검출 결과 결정 모듈(630)을 포함한다. 선택적으로, 상기 장치는, 훈련 모듈(도 6에 도시되지 않음)을 더 포함할 수 있다.
결정될 타겟 획득 모듈(600)은 검출될 이미지 중의 복수 개의 결정될 타겟을 획득하기 위한 것이며, 선택적으로, 결정될 타겟 획득 모듈(600)은 검출될 이미지 중의 적어도 하나의 기설정 영역 크기에 기반하여 형성된 복수 개의 결정될 타겟을 획득하기 위한 것일 수 있다. 결정될 타겟 획득 모듈(600)에 의해 사용되는 적어도 하나의 기설정 영역 크기의 길이에는 차이가 있고, 적어도 하나의 기설정 영역 크기의 너비에는 차이가 있으며, 적어도 하나의 기설정 영역 크기의 가로세로비에는 차이가 있으며; 예를 들어, 기설정 영역 크기는, 3 가지 상이한 길이 및 3 가지 상이한 가로세로비에 기반하여 형성된 9 개의 기설정 영역 크기; 또는 3 가지 상이한 너비 및 3 가지 상이한 가로세로비에 기반하여 형성된 9 개의 기설정 영역 크기; 또는 3 가지 상이한 길이 및 너비에 기반하여 형성된 9 개의 기설정 영역 크기를 포함한다.
하나의 실시 형태에 있어서, 결정될 타겟 획득 모듈(600)은, 제1 결정될 타겟 획득 서브 모듈을 포함할 수 있으며, 상기 제1 결정될 타겟 획득 서브 모듈은 주로 검출될 이미지의 특징 맵을 획득하기 위한 것이며, 특징 맵에서의 하나의 특징점에 대해, 기준 프레임 구성 정보에 따라 상기 특징점의 기준 프레임을 형성하고, 상기 특징점의 하나의 기준 프레임은 하나의 결정될 타겟으로서 사용하며; 특징 맵에서 복수 개의 특징점에 대응되는 복수 개의 결정될 타겟을 획득한다. 제1 결정될 타겟 획득 서브 모은, 검출될 이미지를 컨볼루션 뉴럴 네트워크에서의 백본 네트워크에 제공하고, 백본 네트워크에 의해 출력된 특징 맵을 컨볼루션 뉴럴 네트워크에서의 필터 계층에 제공함으로써, 필터 계층에 의해 기설정 슬라이딩 윈도우에 따라 특징 맵에 대해 필터링 처리를 진행하며, 제1 결정될 타겟 획득 서브 모듈은 필터링 처리 후의 특징 맵을 검출될 이미지의 특징 맵으로서 사용한다.
하나의 실시 형태에 있어서, 결정될 타겟 획득 모듈(600)은 제2 결정될 타겟 획득 서브 모듈을 포함할 수 있으며, 상기 제2 획득 결정될 타겟 서브 모듈은 주로, 검출될 이미지의 특징 맵을 획득하기 위한 것이며, 복수 개의 새로운 특징 맵을 형성하기 위해, 기준 프레임 구성 정보에 기반하여 특징 맵에 대해 풀링 처리를 진행하며, 복수 개의 새로운 특징 맵을 복수 개의 결정될 타겟으로서 사용한다.
결정될 타겟 획득 모듈(600)(예를 들어, 제1 결정될 타겟 획득 서브 모듈 및 제2 결정될 타겟 획득 서브 모듈)에 의해 실행되는 동작 및 기설정 영역 크기 등은 상기 방법 실시 형태에서 단계 S200 및 단계 S300에서의 관련 설명을 참조하며, 여기서 더이상 설명하지 않는다.
카테고리 및 위치 오프셋 값 예측 모듈(610)은 상기 복수 개의 결정될 타겟이 각각 적어도 하나의 카테고리에 대한 신뢰도를 결정하고, 신뢰도에 따라 복수 개의 결정될 타겟의 소속 카테고리를 결정하며; 또한, 복수 개의 결정될 타겟의 각 소속 카테고리에 대응하는 위치 오프셋 값을 결정하며, 예를 들어, 카테고리 및 위치 오프셋 값 예측 모듈(610)은 컨볼루션 뉴럴 네트워크에서의 하나의 컨볼루션 계층을 이용하여 각 카테고리에 대한 복수 개의 결정될 타겟의 카테고리의 신뢰도를 결정하며, 상기 신뢰도에 따라 복수 개의 결정될 타겟의 소속 카테고리를 결정하며, 카테고리 및 위치 오프셋 값 예측 모듈(610)은 컨볼루션 뉴럴 네트워크에서의 다른 컨볼루션 계층을 이용하여 각 카테고리에 대한 복수 개의 결정될 타겟의 위치 오프셋 값(예를 들어, 상"?* 오프셋 값, 하방향 오프셋 값, 좌방향 오프셋 값 및 우방향 오프셋 값)을 결정한다.
하나의 선택적인 예에 있어서, 본 출원의 실시예에서의 카테고리는, 적어도 2 가지 물체 카테고리 및 하나의 백그라운드 카테고리, 즉 20 가지의 물체 카테고리 및 하나의 백그라운드 카테고리를 포함할 수 있다. 선택적으로, 하나의 결정될 타겟에 대해, 카테고리 및 위치 오프셋 값 예측 모듈(610)은 컨볼루션 뉴럴 네트워크에서의 하나의 컨볼루션 계층을 이용하여 적어도 하나의 카테고리에 각각 속하는 상기 결정될 타겟의 신뢰도를 계산하고, 가장 높은 신뢰도에 대응되는 카테고리를 상기 결정될 타겟의 소속 카테고리로서 사용하는 단계를 포함한다. 카테고리 및 위치 오프셋 값 예측 모듈(610)에 의해 실행되는 구체적인 동작은 상기 방법 실시 형태에서 단계 S210 및 단계 S310에서의 관련 설명을 참조하며, 여기서 더이상 설명하지 않는다.
위치 오프셋 결정 모듈(620)은 복수 개의 결정될 타겟의 각 소속 카테고리에 대응하는 위치 오프셋 값을 복수 개의 결정될 타겟의 위치 오프셋 값으로서 사용하기 위한 것이다. 위치 오프셋 결정 모듈(620)에 의해 실행된 구체적인 동작은 상기 방법 실시 형태에서 단계 S220 및 단계 S320에서의 관련 설명을 참조하며, 여기서 더이상 설명하지 않는다.
검출 결과 결정 모듈(630)은 복수 개의 결정될 타겟의 소속 카테고리, 복수 개의 결정될 타겟의 위치 오프셋 값 및 복수 개의 결정될 타겟의 소속 카테고리의 신뢰도에 따라 검출될 이미지에서 적어도 하나의 결정될 타겟의 위치 정보와 소속 카테고리를 결정하기 위한 것이다. 하나의 선택적인 예에 있어서, 검출 결과 결정 모듈(630)은 모든 결정될 타겟으로부터 기설정 신뢰도 요구를 만족시키는 신뢰도를 갖는 결정될 타겟을 선택할 수 있고, 선택된 복수 개의 결정될 타겟의 위치 오프셋 값에 따라 검출될 이미지 중의 결정될 타겟의 위치 정보(예를 들어, 외측 프레임 위치 정보)를 형성하며, 선택된 복수 개의 결정될 타겟의 소속 카테고리를 상응하는 결정될 타겟(예를 들어, 외측 프레임) 소속 카테고리로서 사용한다. 검출 결과 결정 모듈(630)에 의해 실행되는 구체적인 동작은 상기 방법 실시 형태에서 단계 S230 및 단계 S330에서의 관련 설명을 참조하며, 여기서 더이상 설명하지 않는다.
훈련 모듈은 주로 본 출원에서의 컨볼루션 뉴럴 네트워크를 훈련시키기 위한 것이다. 선택적으로, 훈련 모듈은 이미지 샘플 세트로부터 적어도 하나의 표준 외측 프레임 위치 정보 및 표준 외측 프레임 소속 카테고리로 라벨링된 이미지 샘플을 획득하고, 이미지 샘플 중의 적어도 하나의 기설정 영역 크기에 기반하여 형성된 복수 개의 결정될 타겟을 획득할 수 있으며; 그리고, 훈련 모듈은 컨볼루션 뉴럴 네트워크에서의 하나의 컨볼루션 계층을 이용하여 적어도 하나의 카테고리 각각에 대한 복수 개의 결정될 타겟의 신뢰도를 결정하며, 신뢰도에 따라 복수 개의 결정될 타겟의 소속 카테고리를 결정하며, 훈련 모듈은 컨볼루션 뉴럴 네트워크에서의 하나의 컨볼루션 계층을 이용하여 각 카테고리에 대한 복수 개의 결정될 타겟의 위치 오프셋 값을 결정하며, 복수 개의 결정될 타겟의 각 소속 카테고리에 대응하는 위치 오프셋 값을 복수 개의 결정될 타겟의 위치 오프셋 값으로서 사용하며; 훈련 모듈은 상응하는 표준 외측 프레임에 대응되는 복수 개의 결정될 타겟의 표준 위치 오프셋 값(예를 들어, 훈련 모듈은 복수 개의 결정될 타겟에 각각 대응되는 오버랩 면적이 가장 큰 표준 외측 프레임을 결정하며, 오버랩 면적이 가장 큰 표준 외측 프레임에 대한 복수 개의 결정될 타겟의 표준 위치 오프셋 값을 각각 계산하는 단계를 포함한다)을 계산하며, 훈련 모듈은 컨볼루션 뉴럴 네트워크에서의 하나의 손실 계층을 이용하여 상응하는 표준 외측 프레임에 대한 모든 또는 일부 결정될 타겟의 카테고리의 위치 오프셋 값 및 상응하는 표준 위치 오프셋 값의 오차를 계산하며; 훈련 모듈은 컨볼루션 뉴럴 네트워크에서의 하나의 손실 계층을 이용하여 상응하는 표준 외측 프레임 소속 카테고리에 대한 모든 또는 일부 결정될 타겟의 신뢰도 및 표준 외측 프레임 소속 카테고리 사이의 오차를 계산하며, 오차를 컨볼루션 뉴럴 네트워크에서 역방향으로 전파하며; 훈련 모듈은 훈련을 계속할지 여부를 제어하며, 예를 들어, 훈련 모듈은 이미지 샘플 세트로부터 획득된 이미지 샘플의 개수가 미리 결정된 개수에 도달하면, 그리고 오차가 미리 결정된 범위 내에 있는 경우에, 훈련 모듈은 컨볼루션 뉴럴 네트워크가 훈련이 성공적으로 완료된 것으로 결정한다.
상기 일부 결정될 타겟은, 양의 결정될 타겟 및 음의 결정될 타겟을 포함할 수 있지만 이에 한정되지는 않으며, 예를 들어, 훈련 모듈은 모든 결정될 타겟 중의 모든 양의 결정될 타겟으로부터 양의 결정될 타겟을 선택하고, 모든 결정될 타겟 중의 모든 음의 결정될 타겟으로부터 음의 결정될 타겟을 결정하며, 훈련 모듈에 의해 선택된 양의 결정될 타겟 및 선택된 음의 결정될 타겟은 미리 결정된 비율을 만족한다. 훈련 모듈에 의해 실행되는 구체적인 동작, 양의 결정될 타겟 및 음의 결정될 타겟 등 내용은 상기 도 4 및 도 5의 관련 설명을 참조하며, 여기서 더이상 설명하지 않는다.
본 출원의 실시 형태는 전자 기기를 더 제공하며, 예를 들어, 이동 단말, 개인용 컴퓨터(PC), 태블릿 컴퓨터, 서버 등일 수 있다. 아래에 도 7을 참조하면, 본 출원의 실시 형태에 따른 단말기기 또는 서버를 구현하기에 적합한 전자 기기(700)의 구조 모식도이다. 도 7에 도시된 바와 같이, 전자 기기(700)는 하나 또는 복수 개의 프로세서, 통신부 등을 포함하며, 상기 하나 또는 복수 개의 프로세서는, 예를 들어, 하나 또는 복수 개의 중앙 처리 장치(CPU)(701), 및 하나 또는 복수 개의 그래픽 처리 장치(GPU)(713) 중 적어도 하나이며, 프로세서는 판독 전용 메모리(ROM)(702)에 저장된 실행 가능 명령어 또는 저장 부분(708)으로부터 랜덤 액세스 메모리(RAM)(703)에 로딩된 실행 가능한 명령어에 따라 다양한 적절한 동작 및 처리를 실행할 수 있다. 통신부(712)는 네트워크 카드를 포함할 수 있지만 이에 한정되지 않으며, 상기 네트워크 카드는 인피니밴드(Infiniband, IB) 네트워크 카드를 포함할 수 있지만 이에 한정되지는 않는다. 프로세서는 실행 가능 명령어를 실행하기 위해, 판독 전용 메모리(702) 및 랜덤 액세스 메모리(703)와 통신할 수 있으며, 버스(704)를 통해 통신부(712)에 연결되고, 통신부(712)를 거쳐 다른 타겟 기기와 통신함으로써, 본 출원의 실시 형태에 의해 제공된 방법 중 어느 하나에 대응되는 동작을 완료한다.
또한, RAM(703)에는 장치의 동작에 필요한 다양한 프로그램 및 데이터가 더 저장될 수 있다. CPU(701), ROM(702) 및 RAM(703)은 통신 버스(704)를 통해 서로 연결된다. RAM(703)이 있는 경우, ROM(702)은 선택적 모듈이다. RAM(703)은 실행 가능 명령어를 저장하고, 또는 작동될 경우, ROM(702)에 실행 가능 명령어를 기록하며, 실행 가능 명령어는 CPU(701)로 하여금 상기 통신 방법에 대응하는 동작을 실행하도록 한다. 입력/출력(I/O) 인터페이스(705)는 또한 버스(704)에 연결된다. 통신부(712)는 통합될 수 있거나, 버스에 연결된 복수 개의 서브 모듈(예를 들어 복수 개의 IB 랜 카드)을 갖도록 구성될 수 있다.
다음의 구성 요소, 즉 키보드, 마우스 등을 포함하는 입력부(706); 음극 선관(CRT), 액정 디스플레이(LCD), 스피커 등을 포함하는 출력부(707); 하드웨어 등을 포함하는 저장부(708); 및 LAN 카드, 모뎀 등을 포함하는 네트워크 인터페이스의 통신부(709)는 I/O 인터페이스(705)에 연결된다. 통신부(709)는 인터넷과 같은 네트워크를 통해 통신 처리를 실행한다. 드라이버(710)는 필요에 따라 I/O 인터페이스(705)에 연결될 수도 있다. 자기 디스크, 광 디스크, 광 자기 디스크, 반도체 메모리 등과 같은 제거 가능한 매체(711)는 필요에 따라 제거 가능한 매체로부터 판독된 컴퓨터 프로그램이 저장부(708)에 설치되도록 필요에 따라 드라이버(710)에 장착된다.
설명해야 할 것은, 도 10에 도시된 아키텍쳐는 다만 선택적인 구현 방식일 뿐, 구체적인 실천 과정에서, 상기 도 10의 구성 요소의 개수 및 타입은 실제 필요에 따라 선택, 감소, 증가 또는 교체되며; 상이한 기능적 구성 요소 설치에서 분리 설치 또는 통합 설치 등 구현 방식을 사용할 수 있으며, 예를 들어 GPU(713) 및 CPU(701)는 분리 설치되거나 GPU(713) 가 CPU(701)에 통합되며, 통신부는 CPU(713) 또는 GPU(701)에 분리 설치 또는 통합 설치될 수 있는 등이다. 이러한 대안적인 실시 형태는 모두 본 출원의 보호 범위에 속한다.
특히, 본 출원의 실시 형태에 따른 흐름도를 참조하여 설명된 과정은 컴퓨터 소프트웨어 프로그램에 의해 구현된다. 예를 들어, 본 출원에 개시된 실시 형태는 컴퓨터 프로그램 제품을 포함하며, 기계 판독 가능 매체에 타입적으로 포함된 컴퓨터 프로그램을 포함하며, 컴퓨터 프로그램은 흐름도에 도시된 방법을 실행하기 위한 프로그램 코드를 포함하며, 프로그램 코드는 본 출원의 실시 형태에서 제공하는 방법의 단계를 실행하기 위한 명령어를 포함할 수 있다. 이러한 실시 형태에 있어서, 상기 컴퓨터 프로그램은 통신부(709)를 통해 네트워크로부터 다운로드 및 설치될 수 있는 것, 및 제거 가능한 매체(711)로부터 설치될 수 있는 것 중 적어도 하나이다. 본 출원의 방법에서 정의한 상기 기능은 상기 컴퓨터 프로그램이 중앙 처리 장치(CPU)(701)에 의해 실행될 경우에 실행된다.
본 출원의 방법, 장치 및 기기는 많은 방식으로 구현된다. 예를 들어, 본 출원의 방법, 장치 및 기기는 소프트웨어, 하드웨어, 펌웨어 또는 소프트웨어, 하드웨어, 펌웨어의 임의의 조합으로 구현될 수 있다. 달리 구체적으로 언급되지 않는 한, 방법을 위한 상기 단계의 상기 순서는 다만 구체적인 설명을 위한 것이며, 본 출원의 실시 형태의 방법의 단계를 한정하려는 것은 아니다. 또한, 일부 실시 형태에 있어서, 본 출원은 기록 매체에 기록된 프로그램으로서 구현될 수도 있으며, 이들 프로그램은 본 출원의 방법을 구현하기 위한 기계 판독 가능 명령어를 포함한다. 따라서, 본 출원은 본 출원에 따른 방법들을 실행하기 위한 프로그램을 저장하는 기록 매체, 즉 도 8에 도시된 컴퓨터 판독 가능 저장 매체(800)를 더 포함한다.
본 명세서에, 각 실시예는 모두 점진적으로 설명되며, 각 실시예는 다른 실시예와의 차이점에 초점을 맞추고, 각 실시예 사이의 동일하거나 유사한 부분은 서로 참죄될 수 있다. 시스템 실시예는 방법 실시예에 기본상 대응되므로, 설명이 비교적 간단하고, 관련 부분에 대해서는 방법 실시예의 설명을 참조한다.
본 출원의 방법과 장치는 많은 방식으로 구현된다. 예를 들어, 본 출원의 방법과 장치는 소프트웨어, 하드웨어, 펌웨어 또는 소프트웨어, 하드웨어, 펌웨어의 임의의 조합으로 구현될 수 있다. 달리 구체적으로 언급되지 않는 한, 상기 방법의 상기 단계의 상기 순서는 다만 구체적인 설명을 위한 것이며, 본 출원의 방법의 단계를 한정하려는 것은 아니다. 또한, 일부 실시예에 있어서, 본 출원은 기록 매체에 기록된 프로그램으로서 구현될 수도 있으며, 이들 프로그램은 본 출원의 방법을 구현하기 위한 기계 판독 가능 명령어를 포함한다. 따라서, 본 출원은 본 출원에 따른 방법들을 실행하기 위한 프로그램을 저장하는 기록 매체를 더 포함한다.
본 출원의 설명은 예시 및 설명의 목적으로 제공되며, 누락되지 않는 방식으로 한정거나 본 출원에 개시된 형태로 한정하려는 것은 아니다. 많은 보정과 변경이 본 기술분야의 통상의 기술자에게 명백하다. 실시예들은 본 출원의 원리 및 실제 응용을 더 잘 설명하고, 본 기술분야의 통상의 기술자로 하여금 특정 사용에 적용 가능한 다양한 보정들을 갖는 다양한 실시예들을 설계하기 위해 본 출원을 이해하도록 하기 위해 선택되고 설명된다.

Claims (36)

  1. 물체 검출을 위한 방법으로서,
    검출될 이미지 중의 복수 개의 결정될 타겟을 획득하는 단계;
    상기 복수 개의 결정될 타겟이 각각 적어도 하나의 카테고리에 대한 신뢰도를 결정하고, 상기 신뢰도에 따라 복수 개의 결정될 타겟의 소속 카테고리를 결정하며, 상기 복수 개의 결정될 타겟의 각 소속 카테고리에 대응하는 위치 오프셋 값을 결정하는 단계;
    상기 복수 개의 결정될 타겟의 각 소속 카테고리에 대응하는 위치 오프셋 값을 상기 복수 개의 결정될 타겟의 위치 오프셋 값으로서 사용하는 단계; 및
    상기 복수 개의 결정될 타겟의 소속 카테고리, 상기 복수 개의 결정될 타겟의 위치 오프셋 값 및 상기 복수 개의 결정될 타겟이 소속 카테고리에 대한 신뢰도에 따라, 상기 검출될 이미지에서 적어도 하나의 결정될 타겟의 위치 정보와 소속 카테고리를 결정하는 단계를 포함하는 것을 특징으로 하는 물체 검출을 위한 방법.
  2. 제1항에 있어서,
    상기 검출될 이미지 중의 복수 개의 결정될 타겟을 획득하는 단계는,
    상기 검출될 이미지에서 적어도 하나의 기설정 영역 크기에 기반하여 형성된 복수 개의 결정될 타겟을 획득하는 단계를 포함하는 것을 특징으로 하는 물체 검출을 위한 방법.
  3. 제2항에 있어서,
    상기 검출될 이미지에서 적어도 하나의 기설정 영역 크기에 기반하여 형성된 복수 개의 결정될 타겟을 획득하는 단계는,
    검출될 이미지의 특징 맵을 획득하는 단계;
    상기 특징 맵에서의 하나의 특징점에 대해, 기준 프레임 구성 정보에 따라 상기 특징점의 기준 프레임을 형성하고, 상기 특징점의 기준 프레임을 하나의 결정될 타겟으로서 사용하는 단계; 및
    상기 특징 맵에서 복수 개의 특징점에 대응되는 복수 개의 결정될 타겟을 획득하는 단계를 포함하는 것을 특징으로 하는 물체 검출을 위한 방법.
  4. 제3항에 있어서,
    상기 검출될 이미지의 특징 맵을 획득하는 단계는,
    상기 검출될 이미지를 컨볼루션 뉴럴 네트워크에서의 백본 네트워크에 입력하는 단계; 및
    상기 백본 네트워크에 의해 출력된 특징 맵을 상기 컨볼루션 뉴럴 네트워크에서의 필터 계층에 입력하며, 상기 필터 계층에 의해 기설정 슬라이딩 윈도우에 따라 상기 특징 맵에 대해 필터링 처리를 진행하며, 상기 필터링 처리 후의 특징 맵을 상기 검출될 이미지의 특징 맵으로서 사용하는 단계를 포함하는 것을 특징으로 하는 물체 검출을 위한 방법.
  5. 제2항에 있어서,
    상기 검출될 이미지에서 적어도 하나의 기설정 영역 크기에 기반하여 형성된 복수 개의 결정될 타겟을 획득하는 단계는,
    검출될 이미지의 특징 맵을 획득하는 단계; 및
    기준 프레임 구성 정보에 기반하여 상기 특징 맵에 대해 풀링 처리를 진행하여, 복수 개의 새로운 특징 맵을 획득하고, 복수 개의 상기 새로운 특징 맵을 복수 개의 결정될 타겟으로서 사용하는 단계를 포함하는 것을 특징으로 하는 물체 검출을 위한 방법.
  6. 제2항 내지 제5항 중 어느 한 항에 있어서,
    상기 기설정 영역 크기는, 3 가지 상이한 길이 및 3 가지 상이한 가로세로비에 기반하여 형성된 9 개의 기설정 영역 크기; 또는 3 가지 상이한 너비 및 3 가지 상이한 가로세로비에 기반하여 형성된 9 개의 기설정 영역 크기; 또는 3 가지 상이한 길이 및 너비에 기반하여 형성된 9 개의 기설정 영역 크기를 포함하는 것을 특징으로 하는 물체 검출을 위한 방법.
  7. 제1항 내지 제6항 중 어느 한 항에 있어서,
    상기 카테고리는, 2 가지 물체 카테고리 및 하나의 백그라운드 카테고리를 포함하는 것을 특징으로 하는 물체 검출을 위한 방법.
  8. 제1항 내지 제7항에 있어서,
    상기 복수 개의 결정될 타겟이 각각 적어도 하나의 카테고리에 대한 신뢰도를 결정하고, 상기 신뢰도에 따라 복수 개의 결정될 타겟의 소속 카테고리를 결정하는 단계는,
    하나의 결정될 타겟에 대해, 상기 결정될 타겟이 각각 상기 적어도 하나의 카테고리에 속하는 신뢰도를 계산하고, 가장 높은 신뢰도에 대응되는 카테고리를 상기 결정될 타겟의 소속 카테고리로서 사용하는 단계를 포함하는 것을 특징으로 하는 물체 검출을 위한 방법.
  9. 제1항 내지 제8항 중 어느 한 항에 있어서,
    상기 복수 개의 결정될 타겟의 각 소속 카테고리에 대응하는 위치 오프셋 값을 결정하는 단계는,
    하나의 결정될 타겟에 대해, 상기 결정될 타겟이 소속 카테고리에 대한 상"?* 오프셋 값, 하방향 오프셋 값, 좌방향 오프셋 값 및 우방향 오프셋 값을 결정하는 단계를 포함하는 것을 특징으로 하는 물체 검출을 위한 방법.
  10. 제1항 내지 제9항에 있어서,
    상기 결정될 타겟의 위치 정보는, 결정될 타겟의 외측 프레임 위치 정보를 포함하는 것을 특징으로 하는 물체 검출을 위한 방법.
  11. 제10항에 있어서,
    상기 복수 개의 결정될 타겟의 소속 카테고리, 상기 복수 개의 결정될 타겟의 위치 오프셋 값 및 상기 복수 개의 결정될 타겟이 소속 카테고리에 대한 신뢰도에 따라, 상기 검출될 이미지에서 적어도 하나의 결정될 타겟의 위치 정보와 소속 카테고리를 결정하는 단계는,
    상기 복수 개의 결정될 타겟으로부터 기설정 신뢰도 요구를 만족시키는 신뢰도를 갖는 복수 개의 결정될 타겟을 선택 획득하는 단계;
    선택된 복수 개의 결정될 타겟의 위치 오프셋 값에 따라 검출될 이미지 중의 외측 프레임 위치 정보를 형성하는 단계; 및
    상기 선택된 복수 개의 결정될 타겟의 소속 카테고리를 외측 프레임의 소속 카테고리로서 사용하는 단계를 포함하는 것을 특징으로 하는 물체 검출을 위한 방법.
  12. 제1항 내지 제11항에 있어서,
    상기 복수 개의 결정될 타겟이 각각 적어도 하나의 카테고리에 대한 신뢰도를 결정하고, 상기 신뢰도에 따라 복수 개의 결정될 타겟의 소속 카테고리를 결정하며, 상기 복수 개의 결정될 타겟의 각 소속 카테고리에 대응하는 위치 오프셋 값을 결정하는 단계는,
    컨볼루션 뉴럴 네트워크를 이용하여, 상기 복수 개의 결정될 타겟이 각각 적어도 하나의 카테고리에 대한 신뢰도를 결정하고, 상기 신뢰도에 따라 복수 개의 결정될 타겟의 소속 카테고리를 결정하며, 상기 복수 개의 결정될 타겟의 각 소속 카테고리에 대응하는 위치 오프셋 값을 결정하는 단계를 포함하고;
    상기 방법은, 상기 컨볼루션 뉴럴 네트워크를 훈련시키는 단계를 더 포함하며,
    상기 컨볼루션 뉴럴 네트워크를 훈련시키는 단계는,
    이미지 샘플 세트로부터 적어도 하나의 표준 위치 정보 및 표준 위치 소속 카테고리가 표시되어 있는 이미지 샘플을 획득하는 단계;
    이미지 샘플 중의 복수 개의 결정될 타겟을 획득하는 단계;
    컨볼루션 뉴럴 네트워크에서의 하나의 컨볼루션 계층을 이용하여 상기 복수 개의 결정될 타겟이 각각 적어도 하나의 카테고리에 대한 신뢰도를 결정하고, 상기 신뢰도에 따라 복수 개의 결정될 타겟의 소속 카테고리를 결정하는 단계;
    컨볼루션 뉴럴 네트워크에서의 다른 컨볼루션 계층을 이용하여 상기 복수 개의 결정될 타겟의 각 소속 카테고리에 대응하는 위치 오프셋 값을 결정하는 단계;
    상기 복수 개의 결정될 타겟의 각 소속 카테고리에 대응하는 위치 오프셋 값을 상기 복수 개의 결정될 타겟의 위치 오프셋 값으로서 사용하는 단계;
    상기 복수 개의 결정될 타겟이 상응하는 표준 위치에 대한 표준 위치 오프셋 값을 계산하는 단계;
    컨볼루션 뉴럴 네트워크에서의 하나의 손실 계층을 이용하여 상기 복수 개의 결정될 타겟에서 적어도 하나의 결정될 타겟이 상응하는 표준 위치의 카테고리에 대한 위치 오프셋 값과 상응하는 표준 위치 오프셋 값의 오차를 계산하며, 컨볼루션 뉴럴 네트워크에서의 하나의 손실 계층을 이용하여 상기 복수 개의 결정될 타겟에서 적어도 하나의 결정될 타겟이 상응하는 표준 위치 소속 카테고리에 대한 신뢰도와 표준 위치 소속 카테고리 사이의 오차를 계산하며, 상기 오차를 상기 컨볼루션 뉴럴 네트워크에서 역방향으로 전파하는 단계; 및
    이미지 샘플 세트로부터 획득된 이미지 샘플의 개수가 미리 결정된 개수에 도달할 때까지, 또한 오차가 미리 결정된 범위 내에 있을 경우, 상기 컨볼루션 뉴럴 네트워크가 훈련을 완료하는 단계를 포함하는 것을 특징으로 하는 물체 검출을 위한 방법.
  13. 제12항에 있어서,
    상기 이미지 샘플 중의 복수 개의 결정될 타겟을 획득하는 단계는,
    이미지 샘플에서 적어도 하나의 기설정 영역 크기에 기반하여 형성된 복수 개의 결정될 타겟을 획득하는 단계를 포함하는 것을 특징으로 하는 물체 검출을 위한 방법.
  14. 제12항 또는 제13항에 있어서,
    상기 표준 위치는, 표준 외측 프레임을 포함하는 것을 특징으로 하는 물체 검출을 위한 방법.
  15. 제14항에 있어서,
    상기 복수 개의 결정될 타겟이 상응하는 표준 위치에 대한 표준 위치 오프셋 값을 계산하는 단계는,
    상기 복수 개의 결정될 타겟에 각각 대응되는 오버랩 면적이 가장 큰 표준 외측 프레임을 결정하고, 오버랩 면적이 가장 큰 표준 외측 프레임에 대한 복수 개의 결정될 타겟의 표준 위치 오프셋 값을 각각 계산하는 단계를 포함하는 것을 특징으로 하는 물체 검출을 위한 방법.
  16. 제14항 또는 제15항에 있어서,
    상기 복수 개의 결정될 타겟에서 적어도 하나의 결정될 타겟은, 상기 복수 개의 결정될 타겟 중의 복수 개의 양의 결정될 타겟으로부터 선택된 양의 결정될 타겟 및 복수 개의 결정될 타겟 중의 복수 개의 음의 결정될 타겟으로부터 선택된 음의 결정될 타겟을 포함하고, 선택된 양의 결정될 타겟 및 선택된 음의 결정될 타겟은 미리 결정된 비율을 만족시키며;
    하나의 결정될 타겟에 대해, 상기 결정될 타겟과 상기 결정될 타겟에 오버랩되는 면적이 가장 큰 표준 외측 프레임 사이의 오버랩 면적에 대한 상기 결정될 타겟과 표준 외측 프레임이 공동으로 커버되는 면적의 비율 값이 제1 비율 임계값보다 크면, 상기 결정될 타겟은 양의 결정될 타겟이며; 상기 비율 값이 제2 비율 임계값보다 작으면, 상기 결정될 타겟은 음의 결정될 타겟인 것을 특징으로 하는 물체 검출을 위한 방법.
  17. 물체 검출을 위한 장치로서, 상기 장치는,
    검출될 이미지 중의 복수 개의 결정될 타겟을 획득하기 위한 결정될 타겟 획득 모듈;
    상기 복수 개의 결정될 타겟이 각각 적어도 하나의 카테고리에 대한 신뢰도를 결정하고, 상기 신뢰도에 따라 복수 개의 결정될 타겟의 소속 카테고리를 결정하며, 상기 복수 개의 결정될 타겟의 각 소속 카테고리에 대응하는 위치 오프셋 값을 결정하기 위한 카테고리 및 위치 오프셋 값 예측 모듈;
    상기 복수 개의 결정될 타겟의 각 소속 카테고리에 대응하는 위치 오프셋 값을 상기 복수 개의 결정될 타겟의 위치 오프셋 값으로서 사용하기 위한 위치 오프셋 결정 모듈;
    상기 복수 개의 결정될 타겟의 소속 카테고리, 상기 복수 개의 결정될 타겟의 위치 오프셋 값 및 상기 복수 개의 결정될 타겟이 소속 카테고리에 대한 신뢰도에 따라, 상기 검출될 이미지에서 적어도 하나의 결정될 타겟의 위치 정보와 소속 카테고리를 결정하기 위한 검출 결과 결정 모듈을 포함하는 것을 특징으로 하는 물체 검출을 위한 장치.
  18. 제17항에 있어서,
    상기 결정될 타겟 획득 모듈은 구체적으로, 상기 검출될 이미지에서 적어도 하나의 기설정 영역 크기에 기반하여 형성된 복수 개의 결정될 타겟을 획득하기 위한 것임을 특징으로 하는 물체 검출을 위한 장치.
  19. 제18항에 있어서,
    상기 결정될 타겟 획득 모듈은,
    검출될 이미지의 특징 맵을 획득하고, 상기 특징 맵에서의 하나의 특징점에 대해, 기준 프레임 구성 정보에 따라 상기 특징점의 기준 프레임을 형성하고, 상기 특징점의 기준 프레임을 하나의 결정될 타겟으로서 사용하며, 상기 특징 맵에서 복수 개의 특징점에 대응되는 복수 개의 결정될 타겟을 획득하기 위한 제1 결정될 타겟 획득 서브 모듈을 포함하는 것을 특징으로 하는 물체 검출을 위한 장치.
  20. 제19항에 있어서,
    상기 제1 결정될 타겟 획득 서브 모듈은 구체적으로, 상기 검출될 이미지를 컨볼루션 뉴럴 네트워크에서의 백본 네트워크에 입력하고, 상기 백본 네트워크에 의해 출력된 특징 맵을 상기 컨볼루션 뉴럴 네트워크에서의 필터 계층에 입력하며, 상기 필터 계층에 의해 기설정 슬라이딩 윈도우에 따라 상기 특징 맵에 대해 필터링 처리를 진행하며, 상기 필터링 처리 후의 특징 맵을 상기 검출될 이미지의 특징 맵으로서 사용하기 위한 것을 특징으로 하는 물체 검출을 위한 장치.
  21. 제18항에 있어서,
    상기 결정될 타겟 획득 모듈은,
    검출될 이미지의 특징 맵을 획득하고, 기준 프레임 구성 정보에 기반하여 상기 특징 맵에 대해 풀링 처리를 진행하여, 복수 개의 새로운 특징 맵을 획득하며, 상기 복수 개의 새로운 특징 맵을 복수 개의 결정될 타겟으로서 사용하기 위한 제2 결정될 타겟 획득 서브 모듈을 포함하는 것을 특징으로 하는 물체 검출을 위한 장치.
  22. 제18항 내지 제21항 중 어느 한 항에 있어서,
    상기 기설정 영역 크기는, 3 가지 상이한 길이 및 3 가지 상이한 가로세로비에 기반하여 형성된 9 개의 기설정 영역 크기; 또는 3 가지 상이한 너비 및 3 가지 상이한 가로세로비에 기반하여 형성된 9 개의 기설정 영역 크기; 또는 3 가지 상이한 길이 및 너비에 기반하여 형성된 9 개의 기설정 영역 크기를 포함하는 것을 특징으로 하는 물체 검출을 위한 장치.
  23. 제17항 내지 제22항 중 어느 한 항에 있어서,
    상기 카테고리는, 적어도 2 가지 물체 카테고리 및 하나의 백그라운드 카테고리를 포함하는 것을 특징으로 하는 물체 검출을 위한 장치.
  24. 제17항 내지 제23항에 있어서,
    상기 카테고리 및 위치 오프셋 값 예측 모듈은 구체적으로,
    하나의 결정될 타겟에 대해, 상기 결정될 타겟이 각각 상기 적어도 하나의 카테고리에 속하는 신뢰도를 계산하고, 가장 높은 신뢰도에 대응되는 카테고리를 상기 결정될 타겟의 소속 카테고리로서 사용하는 단계를 포함하는 것을 특징으로 하는 물체 검출을 위한 장치.
  25. 제17항 내지 제24항에 있어서,
    상기 카테고리 및 위치 오프셋 값 예측 모듈은 구체적으로,
    하나의 결정될 타겟에 대해, 소속 카테고리에 대한 상기 결정될 타겟의 상"?* 오프셋 값, 하방향 오프셋 값, 좌방향 오프셋 값 및 우방향 오프셋 값을 결정하는 단계를 포함하는 것을 특징으로 하는 물체 검출을 위한 장치.
  26. 제17항 내지 제25항 중 어느 한 항에 있어서,
    상기 결정될 타겟의 위치 정보는, 결정될 타겟의 외측 프레임 위치 정보를 포함하는 것을 특징으로 하는 물체 검출을 위한 장치.
  27. 제26항에 있어서,
    상기 검출 결과 결정 모듈은 구체적으로, 상기 복수 개의 결정될 타겟으로부터 기설정 신뢰도 요구를 만족시키는 신뢰도를 갖는 복수 개의 결정될 타겟을 선택 획득하고, 상기 선택된 복수 개의 결정될 타겟의 위치 오프셋 값에 따라 검출될 이미지 중의 외측 프레임 위치 정보를 형성하며, 상기 선택된 복수 개의 결정될 타겟의 소속 카테고리를 외측 프레임 소속 카테고리로서 사용하기 위한 것임을 특징으로 하는 물체 검출을 위한 장치.
  28. 제17항 내지 제27항 중 어느 한 항에 있어서,
    상기 카테고리 및 위치 오프셋 값 예측 모듈은 컨볼루션 뉴럴 네트워크를 이용하여 구현되고, 상기 장치는, 훈련 모듈을 더 포함하며,
    상기 훈련 모듈은,
    이미지 샘플 세트로부터 적어도 하나의 표준 위치 정보 및 표준 위치 소속 카테고리가 표시되어 있는 이미지 샘플을 획득하며;
    이미지 샘플 중의 복수 개의 결정될 타겟을 획득하며;
    컨볼루션 뉴럴 네트워크에서의 하나의 컨볼루션 계층을 이용하여 상기 복수 개의 결정될 타겟이 각각 적어도 하나의 카테고리에 대한 신뢰도를 결정하고, 상기 신뢰도에 따라 복수 개의 결정될 타겟의 소속 카테고리를 결정하며;
    컨볼루션 뉴럴 네트워크에서의 다른 컨볼루션 계층을 이용하여 상기 복수 개의 결정될 타겟의 각 소속 카테고리에 대응하는 위치 오프셋 값을 결정하며;
    상기 복수 개의 결정될 타겟의 각 소속 카테고리에 대응하는 위치 오프셋 값을 상기 복수 개의 결정될 타겟의 위치 오프셋 값으로서 사용하며;
    상기 복수 개의 결정될 타겟이 상응하는 표준 위치에 대한 표준 위치 오프셋 값을 계산하고;
    컨볼루션 뉴럴 네트워크에서의 하나의 손실 계층을 이용하여 상응하는 표준 위치의 카테고리에 대한 상기 복수 개의 결정될 타겟에서 적어도 하나의 결정될 타겟의 위치 오프셋 값 및 상응하는 표준 위치 오프셋 값의 오차를 계산하며, 컨볼루션 뉴럴 네트워크에서의 하나의 손실 계층을 이용하여 상응하는 표준 위치 소속 카테고리에 대한 상기 복수 개의 결정될 타겟에서 적어도 하나의 결정될 타겟의 신뢰도와 표준 위치 소속 카테고리 사이의 오차를 계산하며, 상기 오차를 상기 컨볼루션 뉴럴 네트워크에서 역방향으로 전파하며; 및
    이미지 샘플 세트로부터 획득된 이미지 샘플의 개수가 미리 결정된 개수에 도달할 때까지, 또한 오차가 미리 결정된 범위 내에 있을 경우, 상기 컨볼루션 뉴럴 네트워크가 훈련을 완료하기 위한 것임을 특징으로 하는 물체 검출을 위한 장치.
  29. 제28항에 있어서,
    상기 훈련 모듈은 구체적으로, 이미지 샘플에서 적어도 하나의 기설정 영역 크기에 기반하여 형성된 복수 개의 결정될 타겟을 획득하기 위한 것임을 특징으로 하는 물체 검출을 위한 장치.
  30. 제28항 또는 제29항에 있어서,
    상기 표준 위치는, 표준 외측 프레임을 포함하는 것을 특징으로 하는 물체 검출을 위한 장치.
  31. 제30항에 있어서,
    상기 훈련 모듈은 구체적으로, 상기 복수 개의 결정될 타겟에 각각 대응되는 오버랩 면적이 가장 큰 표준 외측 프레임을 결정하고, 오버랩 면적이 가장 큰 표준 외측 프레임에 대한 복수 개의 결정될 타겟의 표준 위치 오프셋 값을 각각 계산하기 위한 것임을 특징으로 하는 물체 검출을 위한 장치.
  32. 제30항 또는 제31항에 있어서,
    상기 일부 결정될 타겟은, 상기 복수 개의 결정될 타겟 중의 복수 개의 양의 결정될 타겟으로부터 선택된 양의 결정될 타겟 및 복수 개의 결정될 타겟 중의 복수 개의 음의 결정될 타겟으로부터 선택된 음의 결정될 타겟을 포함하며, 선택된 양의 결정될 타겟 및 선택된 음의 결정될 타겟이 미리 결정된 비율을 만족시키며;
    하나의 결정될 타겟에 대해, 상기 결정될 타겟과 상기 결정될 타겟에 오버랩되는 면적이 가장 큰 표준 외측 프레임 사이의 오버랩 면적에 대한 상기 결정될 타겟과 표준 외측 프레임이 공동으로 커버되는 면적의 비율 값이 제1 비율 임계값보다 크면, 상기 결정될 타겟은 양의 결정될 타겟이며; 상기 비율 값이 제2 비율 임계값보다 작으면, 상기 결정될 타겟은 음의 결정될 타겟인 것을 특징으로 하는 물체 검출을 위한 장치.
  33. 전자 기기로서,
    프로세서를 포함하며, 상기 프로세서는 제17항 내지 제32항 중 어느 한 항에 따른 물체 검출을 위한 장치를 포함하는 것을 특징으로 하는 전자 기기.
  34. 전자 기기로서,
    컴퓨터 프로그램을 저장하기 위한 메모리;
    상기 메모리에 저장된 컴퓨터 프로그램을 실행하기 위한 프로세서를 포함하며,
    상기 컴퓨터 프로그램은 실행될 때, 제1항 내지 제16항 중 어느 한 항에 따른 물체 검출을 위한 방법을 구현하는 것을 특징으로 하는 전자 기기.
  35. 컴퓨터 판독 가능 저장 매체로서,
    컴퓨터 프로그램이 저장되며,
    상기 컴퓨터 프로그램이 프로세서에 의해 실행될 때, 제1항 내지 제16항 중 어느 한 항에 따른 물체 검출을 위한 방법을 구현하는 것을 특징으로 하는 컴퓨터 판독 가능 저장 매체.
  36. 컴퓨터 판독 가능 코드를 포함하는 컴퓨터 프로그램 제품으로서,
    상기 컴퓨터 판독 가능 코드가 기기에서 작동될 때, 상기 기기 중의 프로세서는 제1항 내지 제16항 중 어느 한 항에 따른 물체 검출 방법을 구현하기 위한 명령어를 실행하는 것을 것을 특징으로 하는 컴퓨터 프로그램 제품.
KR1020207000829A 2017-11-22 2018-11-08 물체 검출을 위한 방법, 장치 및 기기 KR102407664B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201711175559.8 2017-11-22
CN201711175559.8A CN108229307B (zh) 2017-11-22 2017-11-22 用于物体检测的方法、装置和设备
PCT/CN2018/114572 WO2019100946A1 (zh) 2017-11-22 2018-11-08 用于物体检测的方法、装置和设备

Publications (2)

Publication Number Publication Date
KR20200018612A true KR20200018612A (ko) 2020-02-19
KR102407664B1 KR102407664B1 (ko) 2022-06-15

Family

ID=62652715

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020207000829A KR102407664B1 (ko) 2017-11-22 2018-11-08 물체 검출을 위한 방법, 장치 및 기기

Country Status (6)

Country Link
US (2) US11222441B2 (ko)
JP (1) JP7016943B2 (ko)
KR (1) KR102407664B1 (ko)
CN (1) CN108229307B (ko)
SG (1) SG11202000072SA (ko)
WO (1) WO2019100946A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102283197B1 (ko) * 2020-11-04 2021-07-29 주식회사 엘지씨엔에스 상품의 유형을 결정하는 방법 및 디바이스

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018033137A1 (zh) * 2016-08-19 2018-02-22 北京市商汤科技开发有限公司 在视频图像中展示业务对象的方法、装置和电子设备
WO2018121013A1 (en) * 2016-12-29 2018-07-05 Zhejiang Dahua Technology Co., Ltd. Systems and methods for detecting objects in images
EP3616118A1 (en) * 2017-04-26 2020-03-04 Skansense S.L.U. Identifying targets within images
CN108229307B (zh) * 2017-11-22 2022-01-04 北京市商汤科技开发有限公司 用于物体检测的方法、装置和设备
CN109344840B (zh) * 2018-08-07 2022-04-01 深圳市商汤科技有限公司 图像处理方法和装置、电子设备、存储介质、程序产品
CN109492576B (zh) * 2018-11-07 2021-06-22 北京旷视科技有限公司 图像识别方法、装置及电子设备
US11099108B2 (en) * 2018-11-21 2021-08-24 Qc Labs Systems and method for providing a graphical user interface for automated determination of randomized representative sampling
CN109583512B (zh) * 2018-12-14 2021-05-25 北京旷视科技有限公司 图像处理方法、装置及系统
CN109901833B (zh) * 2019-01-24 2022-06-07 福建天晴数码有限公司 一种限制物体移动的方法及终端
CN110059591B (zh) * 2019-04-01 2021-04-16 北京中科晶上超媒体信息技术有限公司 运动目标区域的识别方法
CN110097114B (zh) * 2019-04-26 2021-06-29 新华三技术有限公司 一种应用于神经网络的先验框确定方法及装置
CN110427816B (zh) * 2019-06-25 2023-09-08 平安科技(深圳)有限公司 物体检测方法、装置、计算机设备和存储介质
CN112308105B (zh) * 2019-08-02 2024-04-12 北京图森智途科技有限公司 目标检测方法、目标检测器及相关设备
CN110852258A (zh) * 2019-11-08 2020-02-28 北京字节跳动网络技术有限公司 物体检测方法、装置、设备及存储介质
CN113192252B (zh) * 2020-01-14 2024-02-02 深圳怡化电脑股份有限公司 票据重张的检测方法、装置、设备及可读介质
CN111242088B (zh) * 2020-01-22 2023-11-28 上海商汤临港智能科技有限公司 一种目标检测方法、装置、电子设备及存储介质
US11367347B2 (en) * 2020-02-24 2022-06-21 Ford Global Technologies, Llc Enhanced sensor operation
CN111275011B (zh) 2020-02-25 2023-12-19 阿波罗智能技术(北京)有限公司 移动红绿灯检测方法、装置、电子设备和存储介质
CN111508019A (zh) * 2020-03-11 2020-08-07 上海商汤智能科技有限公司 目标检测方法及其模型的训练方法及相关装置、设备
CN111523484B (zh) * 2020-04-24 2021-08-27 北京嘀嘀无限科技发展有限公司 一种人脸关键点的检测方法、装置、电子设备及存储介质
CN111523548B (zh) * 2020-04-24 2023-11-28 北京市商汤科技开发有限公司 一种图像语义分割、智能行驶控制方法及装置
CN111627001B (zh) * 2020-05-25 2024-05-17 深圳市商汤科技有限公司 图像检测方法及装置
CN111724442B (zh) * 2020-05-28 2022-04-22 上海商汤智能科技有限公司 图像处理方法及装置、电子设备及存储介质
CN111832559A (zh) * 2020-06-19 2020-10-27 浙江大华技术股份有限公司 目标检测方法及装置、存储介质、电子装置
CN111931639B (zh) * 2020-08-07 2024-06-11 上海商汤临港智能科技有限公司 驾驶员行为检测方法、装置、电子设备及存储介质
CN112101134B (zh) * 2020-08-24 2024-01-02 深圳市商汤科技有限公司 物体的检测方法及装置、电子设备和存储介质
CN112070801B (zh) * 2020-08-31 2023-08-11 上海沈德医疗器械科技有限公司 一种基于图像的运动检测方法
CN112215123B (zh) * 2020-10-09 2022-10-25 腾讯科技(深圳)有限公司 一种目标检测方法、装置及存储介质
CN112330597A (zh) * 2020-10-14 2021-02-05 浙江大华技术股份有限公司 一种图像差异检测方法、装置及计算机设备
CN112597895B (zh) * 2020-12-22 2024-04-26 阿波罗智联(北京)科技有限公司 基于偏移量检测的置信度确定方法、路侧设备及云控平台
CN112560726B (zh) * 2020-12-22 2023-08-29 阿波罗智联(北京)科技有限公司 目标检测置信度确定方法、路侧设备及云控平台
CN113111708B (zh) * 2021-03-10 2023-12-29 北京爱笔科技有限公司 车辆匹配样本生成方法、装置、计算机设备和存储介质
CN113160144B (zh) * 2021-03-25 2023-05-26 平安科技(深圳)有限公司 目标物检测方法、装置、电子设备及存储介质
CN113177545B (zh) * 2021-04-29 2023-08-04 北京百度网讯科技有限公司 目标物体的检测方法、装置、电子设备和存储介质
CN114821272A (zh) * 2022-06-28 2022-07-29 上海蜜度信息技术有限公司 图像识别方法、系统、介质、电子设备及目标检测模型
CN114998438B (zh) * 2022-08-02 2022-11-01 深圳比特微电子科技有限公司 一种目标检测方法、装置和机器可读存储介质
CN116523908B (zh) * 2023-06-30 2023-09-12 湖南隆深氢能科技有限公司 基于卷料涂布生产线的安全生产方法、系统、设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102411716A (zh) * 2010-09-21 2012-04-11 索尼公司 目标检测和分类方法和装置
CN106504233A (zh) * 2016-10-18 2017-03-15 国网山东省电力公司电力科学研究院 基于Faster R‑CNN的无人机巡检图像电力小部件识别方法及系统
WO2017139927A1 (en) * 2016-02-17 2017-08-24 Intel Corporation Region proposal for image regions that include objects of interest using feature maps from multiple layers of a convolutional neural network model

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102324030B (zh) * 2011-09-09 2013-11-06 广州灵视信息科技有限公司 一种基于图像块特征的目标跟踪方法及跟踪系统
CN104424634B (zh) * 2013-08-23 2017-05-03 株式会社理光 对象跟踪方法和装置
CN106355188B (zh) * 2015-07-13 2020-01-21 阿里巴巴集团控股有限公司 图像检测方法及装置
US9858496B2 (en) 2016-01-20 2018-01-02 Microsoft Technology Licensing, Llc Object detection and classification in images
JP6656357B2 (ja) 2016-04-04 2020-03-04 オリンパス株式会社 学習方法、画像認識装置およびプログラム
CN106529527A (zh) * 2016-09-23 2017-03-22 北京市商汤科技开发有限公司 物体检测方法和装置、数据处理装置和电子设备
CN106778852A (zh) * 2016-12-07 2017-05-31 中国科学院信息工程研究所 一种修正误判的图像内容识别方法
CN106780612B (zh) * 2016-12-29 2019-09-17 浙江大华技术股份有限公司 一种图像中的物体检测方法及装置
CN106803071B (zh) * 2016-12-29 2020-02-14 浙江大华技术股份有限公司 一种图像中的物体检测方法及装置
CN107368845B (zh) * 2017-06-15 2020-09-22 华南理工大学 一种基于优化候选区域的Faster R-CNN目标检测方法
US11188794B2 (en) * 2017-08-10 2021-11-30 Intel Corporation Convolutional neural network framework using reverse connections and objectness priors for object detection
CN108229307B (zh) * 2017-11-22 2022-01-04 北京市商汤科技开发有限公司 用于物体检测的方法、装置和设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102411716A (zh) * 2010-09-21 2012-04-11 索尼公司 目标检测和分类方法和装置
WO2017139927A1 (en) * 2016-02-17 2017-08-24 Intel Corporation Region proposal for image regions that include objects of interest using feature maps from multiple layers of a convolutional neural network model
CN106504233A (zh) * 2016-10-18 2017-03-15 国网山东省电力公司电力科学研究院 基于Faster R‑CNN的无人机巡检图像电力小部件识别方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102283197B1 (ko) * 2020-11-04 2021-07-29 주식회사 엘지씨엔에스 상품의 유형을 결정하는 방법 및 디바이스

Also Published As

Publication number Publication date
US20220076444A1 (en) 2022-03-10
KR102407664B1 (ko) 2022-06-15
CN108229307A (zh) 2018-06-29
US20200143563A1 (en) 2020-05-07
JP2020527793A (ja) 2020-09-10
US11222441B2 (en) 2022-01-11
WO2019100946A1 (zh) 2019-05-31
JP7016943B2 (ja) 2022-02-07
SG11202000072SA (en) 2020-02-27
CN108229307B (zh) 2022-01-04

Similar Documents

Publication Publication Date Title
KR20200018612A (ko) 물체 검출을 위한 방법, 장치 및 기기
US11643076B2 (en) Forward collision control method and apparatus, electronic device, program, and medium
CN109635685B (zh) 目标对象3d检测方法、装置、介质及设备
CN109829351B (zh) 车道信息的检测方法、装置及计算机可读存储介质
US9870437B2 (en) Systems and methods for detecting and modeling curb curves in complex urban scenes
WO2021003823A1 (zh) 基于视频帧图片分析的车辆违停检测方法及装置
US11783588B2 (en) Method for acquiring traffic state, relevant apparatus, roadside device and cloud control platform
CN110232368B (zh) 车道线检测方法、装置、电子设备及存储介质
CN110263714B (zh) 车道线检测方法、装置、电子设备及存储介质
EP3955218A2 (en) Lane line detection method and apparatus, electronic device, computer storage medium, and computer program product
CN112863187B (zh) 感知模型的检测方法、电子设备、路侧设备和云控平台
CN111178119A (zh) 路口状态检测方法、装置、电子设备及车辆
CN112766069A (zh) 基于深度学习的车辆违停检测方法、装置及电子设备
KR102387357B1 (ko) 바운딩 박스를 시공간상으로 매칭하여 영상 내 객체를 검출하는 방법 및 장치
CN114677848B (zh) 感知预警系统、方法、装置及计算机程序产品
CN113538963A (zh) 用于输出信息的方法、装置、设备以及存储介质
CN115755097A (zh) 天气情况检测方法、装置、设备及存储介质
CN113052047B (zh) 交通事件的检测方法、路侧设备、云控平台及系统
JP2022120116A (ja) 交通信号灯の識別方法、装置、電子機器、記憶媒体、コンピュータプログラム、路側機器、クラウド制御プラットフォーム及び車両道路協同システム
CN112598007A (zh) 图片训练集的筛选方法、装置、设备和可读存储介质
CN112215042A (zh) 一种车位限位器识别方法及其系统、计算机设备
CN113963322B (zh) 一种检测模型训练方法、装置及电子设备
CN115431968B (zh) 车辆控制器、车辆及车辆控制方法
CN114078326B (zh) 碰撞检测方法、装置、视觉传感器和存储介质
CN114842465A (zh) 车牌检测方法、装置、电子设备、介质及智能交通设备

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right