KR20210002104A - 목표 검출 및 목표 검출 네트워크의 훈련 - Google Patents

목표 검출 및 목표 검출 네트워크의 훈련 Download PDF

Info

Publication number
KR20210002104A
KR20210002104A KR1020207030752A KR20207030752A KR20210002104A KR 20210002104 A KR20210002104 A KR 20210002104A KR 1020207030752 A KR1020207030752 A KR 1020207030752A KR 20207030752 A KR20207030752 A KR 20207030752A KR 20210002104 A KR20210002104 A KR 20210002104A
Authority
KR
South Korea
Prior art keywords
bounding box
target
foreground
network
candidate
Prior art date
Application number
KR1020207030752A
Other languages
English (en)
Other versions
KR102414452B1 (ko
Inventor
콩 리
Original Assignee
베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드 filed Critical 베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드
Publication of KR20210002104A publication Critical patent/KR20210002104A/ko
Application granted granted Critical
Publication of KR102414452B1 publication Critical patent/KR102414452B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • G06K9/00711
    • G06K9/342
    • G06K9/46
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/12Edge-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/187Segmentation; Edge detection involving region growing; involving region merging; involving connected component labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/255Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/13Satellite images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/12Bounding box

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Remote Sensing (AREA)
  • Astronomy & Astrophysics (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 목표 검출 및 목표 검출 네트워크의 훈련 방법, 장치 및 기기를 개시한다. 상기 목표 검출 방법은, 입력 이미지의 특징 데이터를 획득하는 단계; 상기 특징 데이터에 따라, 상기 입력 이미지의 복수 개의 후보 바운딩 박스를 결정하는 단계; 상기 특징 데이터에 따라, 상기 입력 이미지의 전경 분할 결과를 획득하는 단계 - 전경 분할 결과는 상기 입력 이미지의 복수 개의 픽셀에서의 각 픽셀이 전경에 속하는지 여부를 나타내는 지시 정보를 포함함 - ; 및 상기 복수 개의 후보 바운딩 박스와 상기 전경 분할 결과에 따라, 상기 입력 이미지의 목표 검출 결과를 획득하는 단계를 포함한다.

Description

목표 검출 및 목표 검출 네트워크의 훈련
본 발명은 이미지 처리 기술분야에 관한 것으로, 특히 목표 검출 및 목표 검출 네트워크의 훈련 방법, 장치 및 기기에 관한 것이다.
목표 검출은 컴퓨터 비전 분야에서 중요한 문제로서, 특히 비행기, 함선 등 군사 목표를 검출하기 위한 것이며, 이미지 사이즈가 크고, 목표 사이즈가 작은 특징이 있으므로, 검출 난이도가 비교적 높다. 또한, 밀도가 높고 배열 상태를 갖는 함선 등과 같은 목표에 대해, 검출 정확도가 낮다.
본 발명의 실시예는 목표 검출 및 목표 검출 네트워크의 훈련 방법, 장치 및 기기를 제공한다.
제1 측면에 있어서, 목표 검출 방법을 제공하며,
입력 이미지의 특징 데이터를 획득하는 단계; 상기 특징 데이터에 따라, 상기 입력 이미지의 복수 개의 후보 바운딩 박스를 결정하는 단계; 상기 특징 데이터에 따라, 상기 입력 이미지의 전경 분할 결과를 획득하는 단계 - 전경 분할 결과는 상기 입력 이미지의 복수 개의 픽셀에서의 각 픽셀이 전경에 속하는지 여부를 나타내는 지시 정보를 포함함 - ; 및 상기 복수 개의 후보 바운딩 박스와 상기 전경 분할 결과에 따라, 상기 입력 이미지의 목표 검출 결과를 획득하는 단계를 포함한다.
본 발명의 임의의 실시형태와 결합하면, 상기 복수 개의 후보 바운딩 박스와 상기 전경 분할 결과에 따라, 상기 입력 이미지의 목표 검출 결과를 획득하는 단계는, 상기 복수 개의 후보 바운딩 박스에서의 각 후보 바운딩 박스와 상기 전경 분할 결과에 대응하는 전경 이미지 영역 사이의 중첩 영역에 따라, 복수 개의 후보 바운딩 박스로부터 적어도 하나의 목표 바운딩 박스를 선택하는 단계; 및 상기 적어도 하나의 목표 바운딩 박스에 기반하여, 상기 입력 이미지의 목표 검출 결과를 획득하는 단계를 포함한다.
본 발명의 임의의 실시형태와 결합하면, 상기 복수 개의 후보 바운딩 박스에서의 각 후보 바운딩 박스와 상기 전경 분할 결과에 대응하는 전경 이미지 영역 사이의 중첩 영역에 따라, 복수 개의 후보 바운딩 박스로부터 적어도 하나의 목표 바운딩 박스를 선택하는 단계는, 상기 복수 개의 후보 바운딩 박스에서의 각 후보 바운딩 박스에 대해, 상기 후보 바운딩 박스 및 대응하는 전경 이미지 영역 사이의 중첩 영역이 상기 후보 바운딩 박스에서 차지하는 비율이 제1 임계값보다 크면, 상기 후보 바운딩 박스를 상기 목표 바운딩 박스로 사용하는 단계를 포함한다.
본 발명의 임의의 실시형태와 결합하면, 상기 적어도 하나의 목표 바운딩 박스는 제1 바운딩 박스 및 제2 바운딩 박스를 포함하고, 상기 적어도 하나의 목표 바운딩 박스에 기반하여, 상기 입력 이미지의 목표 검출 결과를 획득하는 단계는, 상기 제1 바운딩 박스 및 상기 제2 바운딩 박스 사이의 협각에 기반하여, 상기 제1 바운딩 박스 및 상기 제2 바운딩 박스의 중첩 파라미터를 결정하는 단계; 및 상기 제1 바운딩 박스 및 상기 제2 바운딩 박스의 중첩 파라미터에 기반하여, 상기 제1 바운딩 박스 및 상기 제2 바운딩 박스에 대응하는 목표 대상 위치를 결정하는 단계를 포함한다.
본 발명의 임의의 실시형태와 결합하면, 상기 제1 바운딩 박스 및 상기 제2 바운딩 박스 사이의 협각에 기반하여, 상기 제1 바운딩 박스 및 상기 제2 바운딩 박스의 중첩 파라미터를 결정하는 단계는, 상기 제1 바운딩 박스 및 상기 제2 바운딩 박스 사이의 협각에 기반하여, 각도 인자를 획득하는 단계; 및 상기 제1 바운딩 박스 및 상기 제2 바운딩 박스 사이의 교집합 대 합집합(IoU) 및 상기 각도 인자에 따라, 상기 중첩 파라미터를 획득하는 단계를 포함한다.
본 발명의 임의의 실시형태와 결합하면, 상기 제1 바운딩 박스 및 상기 제2 바운딩 박스의 중첩 파라미터는 상기 IoU와 상기 각도 인자의 곱셈이고, 여기서, 상기 각도 인자는 상기 제1 바운딩 박스 및 상기 제2 바운딩 박스 사이의 각도가 증가함에 따라 증가한다.
본 발명의 임의의 실시형태와 결합하면, 상기 IoU가 일정한 조건을 유지하는 경우, 상기 제1 바운딩 박스 및 상기 제2 바운딩 박스의 중첩 파라미터는 상기 제1 바운딩 박스 및 상기 제2 바운딩 박스 사이의 각도가 증가함에 따라 증가한다.
본 발명의 임의의 실시형태와 결합하면, 상기 제1 바운딩 박스 및 상기 제2 바운딩 박스의 중첩 파라미터에 기반하여, 상기 제1 바운딩 박스 및 상기 제2 바운딩 박스에 대응하는 목표 대상 위치를 결정하는 단계는, 상기 제1 바운딩 박스 및 상기 제2 바운딩 박스의 중첩 파라미터가 제2 임계값보다 큰 경우, 상기 제1 바운딩 박스 및 상기 제2 바운딩 박스 중 하나를 상기 목표 대상 위치로 사용하는 단계를 포함한다.
본 발명의 임의의 실시형태와 결합하면, 상기 제1 바운딩 박스 및 상기 제2 바운딩 박스 중 하나를 상기 목표 대상 위치로 사용하는 단계는, 상기 제1 바운딩 박스와 상기 전경 분할 결과에 대응하는 전경 이미지 영역 사이의 중첩 파라미터 및 상기 제2 바운딩 박스와 상기 전경 이미지 영역 사이의 중첩 파라미터를 결정하는 단계; 및상기 제1 바운딩 박스와 상기 전경 이미지 영역 사이의 중첩 파라미터 및 상기 제2 바운딩 박스와 상기 전경 이미지 영역 사이의 중첩 파라미터 중 파라미터가 큰 바운딩 박스를 상기 목표 대상 위치로 사용하는 단계를 포함한다.
본 발명의 임의의 실시형태와 결합하면, 상기 제1 바운딩 박스 및 상기 제2 바운딩 박스의 중첩 파라미터에 기반하여, 상기 제1 바운딩 박스 및 상기 제2 바운딩 박스에 대응하는 목표 대상 위치를 결정하는 단계는, 상기 제1 바운딩 박스 및 상기 제2 바운딩 박스의 중첩 파라미터가 제2 임계값보다 작거나 같은 경우, 상기 제1 바운딩 박스 및 상기 제2 바운딩 박스를 모두 상기 목표 대상 위치로 사용하는 단계를 포함한다.
본 발명의 임의의 실시형태와 결합하면, 상기 입력 이미지에서 검출될 목표 대상의 종횡비가 특정값보다 크다.
제2 측면에 있어서, 목표 검출 네트워크의 훈련 방법을 제공하고, 상기 목표 검출 네트워크는 특징 추출 네트워크, 목표 예측 네트워크 및 전경 분할 네트워크를 포함하며, 상기 목표 검출 네트워크의 훈련 방법은,
상기 특징 추출 네트워크를 통해 샘플 이미지에 대해 특징 추출 처리를 수행하여, 상기 샘플 이미지의 특징 데이터를 획득하는 단계; 상기 특징 데이터에 따라, 상기 목표 예측 네트워크를 ?v해 복수 개의 샘플 후보 바운딩 박스를 획득하는 단계; 상기 특징 데이터에 따라, 상기 전경 분할 네트워크를 통해 상기 샘플 이미지의 샘플 전경 분할 결과를 획득하는 단계 - 상기 샘플 전경 분할 결과는 상기 샘플 이미지의 복수 개의 픽셀 포인트에서의 각 픽셀 포인트가 전경에 속하는지 여부를 나타내는 지시 정보를 포함함 - ; 상기 복수 개의 샘플 후보 바운딩 박스, 상기 샘플 전경 분할 결과 및 상기 샘플 이미지의 태그 정보에 따라, 네트워크의 손실값을 결정하는 단계; 및 상기 네트워크의 손실값에 기반하여, 상기 목표 검출 네트워크의 네트워크 파라미터에 대해 조정을 수행하는 단계를 포함한다.
본 발명의 임의의 실시형태와 결합하면, 상기 태그 정보는 상기 샘플 이미지에 포함된 적어도 하나의 목표 대상의 실제 바운딩 박스를 포함하고, 상기 복수 개의 샘플 후보 바운딩 박스 및 상기 샘플 전경 이미지 영역 및 상기 샘플 이미지의 태그 정보에 따라, 네트워크의 손실값을 결정하는 단계는, 상기 복수 개의 후보 바운딩 박스에서의 각 후보 바운딩 박스에 대해, 상기 후보 바운딩 박스와 상기 샘플 이미지에 태깅된 적어도 하나의 실제 목표 바운딩 박스 중의 각 실제 목표 바운딩 박스 사이의 IoU를 결정하는 단계; 및 결정된 상기 복수 개의 후보 바운딩 박스에서의 각 후보 바운딩 박스의 상기 IoU에 따라, 제1 네트워크의 손실값을 결정하는 단계를 포함한다.
본 발명의 임의의 실시형태와 결합하면, 상기 후보 바운딩 박스 및 상기 실제 목표 바운딩 박스 사이의 IoU는 상기 바운딩 박스와 상기 실제 목표 바운딩 박스를 포함한 외접원에 기반하여 획득된다.
본 발명의 임의의 실시형태와 결합하면, 상기 네트워크의 손실값을 결정하는 과정에서, 상기 후보 바운딩 박스의 폭에 대응하는 가중치는 상기 후보 바운딩 박스의 길이에 대응하는 가중치보다 크다.
본 발명의 임의의 실시형태와 결합하면, 상기 특징 데이터에 따라, 상기 전경 분할 네트워크를 통해 상기 샘플 이미지의 샘플 전경 분할 결과를 획득하는 단계는, 처리된 상기 특징 데이터의 크기와 샘플 이미지의 크기가 동일하도록, 상기 특징 데이터에 대해 업 샘플링 처리를 수행하는 단계; 및 상기 처리된 상기 특징 데이터에 기반하여 픽셀 분할을 수행하여, 상기 샘플 이미지의 샘플 전경 분할 결과를 획득하는 단계를 포함한다.
본 발명의 임의의 실시형태와 결합하면, 상기 샘플 이미지에 포함된 목표 대상의 종횡비는 설정값보다 크다.
제3 측면에 있어서, 목표 검출 장치를 제공하며,
입력 이미지의 특징 데이터를 획득하기 위한 특징 추출 유닛; 상기 특징 데이터에 따라, 상기 입력 이미지의 복수 개의 후보 바운딩 박스를 결정하기 위한 목표 예측 유닛; 상기 특징 데이터에 따라, 상기 입력 이미지의 전경 분할 결과를 획득하기 위한 전경 분할 유닛 - 전경 분할 결과는 상기 입력 이미지의 복수 개의 픽셀에서의 각 픽셀이 전경에 속하는지 여부를 나타내는 지시 정보를 포함함 - ; 및 상기 복수 개의 후보 바운딩 박스와 상기 전경 분할 결과에 따라, 상기 입력 이미지의 목표 검출 결과를 획득하기 위한 목표 결정 유닛을 포함한다.
제4 측면에 있어서, 목표 검출 네트워크의 훈련 장치를 제공하고, 상기 목표 검출 네트워크는 특징 추출 네트워크, 목표 예측 네트워크 및 전경 분할 네트워크를 포함하며, 상기 목표 검출 네트워크의 훈련 장치는,
상기 특징 추출 네트워크를 통해 샘플 이미지에 대해 특징 추출 처리를 수행하여, 상기 샘플 이미지의 특징 데이터를 획득하기 위한 특징 추출 유닛; 상기 특징 데이터에 따라, 상기 목표 예측 네트워크를 ?v해 복수 개의 샘플 후보 바운딩 박스를 획득하기 위한 목표 예측 유닛; 상기 특징 데이터에 따라, 상기 전경 분할 네트워크를 통해 상기 샘플 이미지의 샘플 전경 분할 결과를 획득하기 위한 전경 분할 유닛 - 상기 샘플 전경 분할 결과는 상기 샘플 이미지의 복수 개의 픽셀 포인트에서의 각 픽셀 포인트가 전경에 속하는지 여부를 나타내는 지시 정보를 포함함 - ; 상기 복수 개의 샘플 후보 바운딩 박스, 상기 샘플 전경 분할 결과 및 상기 샘플 이미지의 태그 정보에 따라, 네트워크의 손실값을 결정하기 위한 손실값 결정 유닛; 및 상기 네트워크의 손실값에 기반하여, 상기 목표 검출 네트워크의 네트워크 파라미터에 대해 조정을 수행하기 위한 파라미터 조정 유닛을 포함한다.
제5 측면에 있어서, 목표 검출 기기를 제공하고, 상기 기기는 메모리, 프로세서 및 상기 프로세서에서 작동될 수 있는 컴퓨터 명령어를 저장하기 위한 메모리를 포함하고, 상기 프로세서는 상기 컴퓨터 명령어가 실행될 때 전술한 목표 검출 방법을 구현하기 위한 것이다.
제6 측면에 있어서, 목표 검출 네트워크의 훈련 기기를 제공하고, 상기 기기는 메모리, 프로세서 및 상기 프로세서에서 작동될 수 있는 컴퓨터 명령어를 저장하기 위한 메모리를 포함하고, 상기 프로세서는 상기 컴퓨터 명령어가 실행될 때 전술한 목표 검출 네트워크의 훈련 방법을 구현하기 위한 것이다.
제7 측면에 있어서, 컴퓨터 프로그램이 저장된 비휘발성 컴퓨터 판독 가능 저장 매체를 제공하고, 상기 프로그램이 프로세서에 의해 실행될 때, 상기 프로세서로 하여금 전술한 목표 검출 방법 및 목표 검출 네트워크의 훈련 방법 중 하나를 구현하도록 한다.
본 발명은 하나 또는 복수 개의 실시예의 목표 검출 및 목표 검출 네트워크의 훈련 방법, 장치 및 기기를 제공하고, 입력 이미지의 특징 데이터에 따라 복수 개의 후보 바운딩 박스를 결정하고, 상기 특징 데이터에 따라 전경 분할 결과를 결정하며, 상기 복수 개의 후보 바운딩 박스 및 전경 분할 결과를 결합하여, 검출된 목표 대상을 보다 정확하게 결정할 수 있다.
이해해야 할 것은, 이상의 일반적인 설명 및 하기의 상세한 설명은 다만 예시적인 해석이며, 본 발명을 한정하려는 것이 아니다.
본문의 도면은 본 명세서에 포함되어 본 명세서의 일부를 구성하고, 본 명세서와 일치하는 실시예를 예시하고, 명세서와 함께 본 명세서의 원리를 설명하기 위해 사용된다.
도 1은 본 출원의 실시예에 도시된 목표 검출 방법의 흐름도이다.
도 2는 본 출원의 실시예에 도시된 목표 검출 방법의 모식도이다.
도 3a 및 도 3b는 각각 본 출원의 예시적 실시예에 도시된 선박 검출 결과도이다.
도 4는 관련 기술에서의 목표 바운딩 박스의 모식도이다.
도 5a 및 도 5b는 각각 본 출원의 예시적 실시예에 도시된 중첩 파라미터 계산 방법의 모식도이다.
도 6은 본 출원의 실시예에 도시된 목표 검출 네트워크의 훈련 방법의 흐름도이다.
도 7은 본 출원의 실시예에 도시된 IoU 계산 방법의 모식도이다.
도 8은 본 출원의 실시예에 도시된 목표 검출 네트워크의 네트워크 구조도이다.
도 9는 본 출원의 실시예에 도시된 목표 검출 네트워크의 훈련 방법의 모식도이다.
도 10은 본 출원의 실시예에 도시된 예측 후보 바운딩 박스 방법의 흐름도이다.
도 11은 본 출원의 실시예에 도시된 앵커 박스의 모식도이다.
도 12는 본 출원의 일 예시적 실시예에 도시된 예측 전경 이미지 영역 방법의 흐름도이다.
도 13은 본 출원의 일 예시적 실시예에 도시된 목표 검출 장치의 구조 모식도이다.
도 14는 본 출원의 일 예시적 실시예에 도시된 목표 검출 네트워크의 훈련 장치의 구조 모식도이다.
도 15는 본 출원의 일 예시적 실시예에 도시된 목표 검출 기기의 구조도이다.
도 16은 본 출원의 일 예시적 실시예에 도시된 목표 검출 네트워크의 훈련 기기의 구조도이다.
아래에 예시적 실시예에 대해 상세히 설명하며, 그 예는 도면에 도시된다. 이하의 설명이 도면을 참조할 때 다른 표시가 없는 한 상이한 도면에서 동일한 번호는 동일하거나 유사한 요소를 나타낸다. 아래의 예시적 실시예에서 설명된 실시형태는 본 개시와 일치하는 모든 실시형태를 나타내는 것은 아니다. 이와 반대로, 이들은 다만 청구 범위에 상세히 서술된 바와 같이 본 개시의 일부 측면과 일치하는 장치 및 방법의 예일 뿐이다.
이해해야 할 것은, 본 발명의 실시예에 제공된 기술 방안은 주로 이미지에서 가늘고 작은 목표의 검출에 적용되지만, 본 발명의 실시예는 이를 한정하지 않는다.
도 1은 목표 검출 방법을 예시하고, 상기 방법은 아래의 단계를 포함할 수 있다.
단계 101에 있어서, 입력 이미지의 특징 데이터를 획득한다(예를 들어, 특징맵(feature map)).
일부 실시예에서, 입력 이미지는 원격 감지 이미지일 수 있다. 원격 감지 이미지는 인공 위성, 항공기 등에 탑재된 센서에 의해 검출된 지상 물체의 전자기 복사 특징 신호에 의해 획득된 이미지일 수 있다. 당업자는, 입력 이미지는 다른 유형의 이미지일 수 있고, 원격 감지 이미지에 한정되지 않는다는 것을 이해해야 한다.
일 예에 있어서, 특징 추출 네트워크를 통해 컨볼루션 네트워크와 같은 샘플 이미지의 특징 데이터를 추출할 수 있고, 본 발명의 실시예는 특징 추출 네트워크의 구체적인 구조를 한정하지 않는다. 추출된 특징 데이터는 다중 채널의 특징 데이터이고, 특징 데이터의 크기 및 채널수는 특징 추출 네트위크의 구체적인 구조에 의해 결정된다.
다른 일 예에 있어서, 다른 기기에서 입력 이미지의 특징 데이터를 획득할 수 있고, 예를 들어, 단말에 의해 송신된 특징 데이터를 수신하며, 본 발명의 실시예는 이를 한정하지 않는다.
단계 102에 있어서, 상기 특징 데이터에 따라, 상기 입력 이미지의 복수 개의 후보 바운딩 박스를 결정한다.
이 단계에서, 관심 영역(Region Of Interest, ROI)과 같은 기술을 사용하여 후보 바운딩 박스의 파라미터 정보를 포함한 후보 바운딩 박스를 예측하고, 파라미터는 후보 바운딩 박스의 길이, 폭, 중심점 좌표, 각도 등 하나 또는 임의의 조합을 포함할 수 있다.
단계 103에 있어서, 상기 특징 데이터에 따라, 상기 입력 이미지의 전경 분할 결과를 획득하고, 여기서, 전경 분할 결과는 상기 입력 이미지의 복수 개의 픽셀에서의 각 픽셀이 전경에 속하는지 여부를 나타내는 지시 정보를 포함한다.
특징 데이터에 기반하여 획득된 전경 분할 결과는, 상기 입력 이미지의 복수 개의 픽셀에서, 각 픽셀이 전경 및 후경 중 하나의 활률에 속하는 것을 포함하고, 전경 분할 결과는 픽셀 레벨의 예측 결과를 제공한다.
단계 104에 있어서, 상기 복수 개의 후보 바운딩 박스와 상기 전경 분할 결과에 따라, 상기 입력 이미지의 목표 검출 결과를 획득한다.
일부 실시예에서, 입력 이미지의 특징 데이터에 따라 결정된 복수 개의 후보 바운딩 박스, 및 상기 특징 데이터를 통해 획득된 전경 분할 결과는, 대응 관계를 가진다. 복수 개의 후보 바운딩 박스를 전경 분할 결과에 매핑하여, 목표 대상의 윤곽에 더 잘 피팅되는 후보 바운딩 박스는, 전경 분할 결과에 대응하는 전경 이미지 영역과의 중첩에 더 접근한다. 따라서, 결정된 복수 개의 후보 바운딩 박스 및 획득된 전경 본할 결과를 결합할 수 있고, 검출된 목표 대상을 보다 정확하게 결정할 수 있다. 일부 실시예에서, 목표 검출 결과는 입력 이미지에 포함된 목표 대상의 위치, 개수 등 정보를 포함할 수 있다.
일 예에 있어서, 상기 복수 개의 후보 바운딩 박스에서의 각 후보 바운딩 박스와 상기 전경 분할 결과에 대응하는 전경 이미지 영역 사이의 중첩 영역에 따라, 복수 개의 후보 바운딩 박스로부터 적어도 하나의 목표 바운딩 박스를 선택할 수 있고; 상기 적어도 하나의 목표 바운딩 박스에 기반하여, 상기 입력 이미지의 목표 검출 결과를 획득할 수 있다.
상기 복수 개의 후보 바운딩 박스에서, 전경 이미지 영역 사이의 중첩 영역이 클수록, 즉 후보 바운딩 박스와 전경 이미지 영역이 중첩에 접근할수록, 상기 후보 바운딩 박스와 목표 대상의 윤곽이 더 잘 피팅되며, 상기 후보 바운딩 박스의 예측 예측 결과가 더 정확하다는 것을 설명한다. 따라서, 후보 바운딩 박스와 전경 이미지 사이의 중첩 영역에 따라, 상기 복수 개의 후보 바운딩 박스에서 적어도 하나의 후보 바운딩 박스를 선택하여 목표 바운딩 박스로 사용하고, 선택된 목표 바운딩 박스를 검출된 목표 대상으로 사용하여, 상기 입력 이미지의 목표 검출 결과를 획득할 수 있다.
예를 들어, 상기 복수 개의 후보 바운딩 박스에서 상기 전경 이미지 영역 사이의 중첩 영역이 전체 후보 바운딩 박스에서 차지하는 비율이 제1 임계값보다 큰 후보 바운딩 박스를 목표 바운딩 박스로 사용할 수 있다. 중첩 영역이 전체 후보 바운딩 박스에서 차지하는 비율이 높을수록, 상기 후보 바운딩 박스와 전경 이미지 영역의 중첩 정도가 높다는 것을 설명한다. 당업자는, 제1 임계값의 구체적인 값이 본 발명에 의해 한정되지 않으며, 실제 요구에 따라 결정될 수 있음을 이해할 수 있다.
본 발명의 실시예의 목표 검출 방법은 종횡비의 차이는 비행기, 선박, 차량 등 군사 목표와 같은 검출될 목표 대상에 적용될 수 있다. 일 예에 있어서, 종횡비의 차이는 종횡비가 특정값(예를 들어, 5보다 큼)보다 큰 것을 의미한다. 당업자는, 상기 특정값이 검출 목표에 의해 구체적으로 결정될 수 있음을 이해해야 한다. 일 예에 있어서, 목표 대상은 선박일 수 있다.
다음은 입력 이미지를 원격 감지 이미지로, 검출 목표를 선박으로 하여 예로 들면, 목표 검출의 과정을 설명한다. 당업자는, 다른 목표 대상의 경우, 상기 목표 검출 방법을 적용할 수도 있음을 이해해야 한다. 도 2의 목표 검출 방법의 모식도를 참조한다.
먼저, 상기 원격 감지 이미지(즉, 도 2의 입력 이미지(210)의 다중 채널 특징 데이터(즉, 도 2의 특징맵(220)를 획득한다.
상기 특징 데이터를 제1 브랜치(도 2에서 상부 브랜치(230)) 및 제2 브랜치(도 2에서 하부 브랜치(240))에 각각 입력하여, 다음의 처리를 각각 수행한다.
제1 브랜치에 대해,
각 앵커(anchor) 박스에 대해 하나의 신뢰도 점수를 생성한다. 상기 신뢰도 점수는 앵커 박스 내부가 전경 또는 후경일 확률과 관련되고, 예를 들어, 앵커 박스가 전경일 확률이 높을수록, 신뢰도 점수가 높다.
일부 실시예에서, 앵커 박스는 선험적 지식의 직사각형 박스에 기반한다. 앵커 박스의 구체적인 구현 방법은 후속 목표 검출 네트워크의 훈련에서의 설명을 참조할 수 있고, 여기서 상세히 설명하지 않는다. 앵커 박스를 하나의 총체로서 예측하여, 앵커 박스 내부가 전경 또는 후경에 속하는 활률을 계산할 수 있으며, 즉 상기 앵커 박스 내에 물체 또는 특정 목표가 포함되는지 여부를 예측하며, 여기서, 앵커 박스에 물체 또는 특정 목표가 포함되어 있으면, 상기 앵커 박스는 전경으로 판단된다.
일부 실시예에서, 신뢰도 점수에 따라, 점수가 가장 높거나 특정 임계값을 초과한 몇몇 앵커 박스를 전경 앵커 박스로 사용하여, 전경 앵커 박스에서 후보 바운딩 박스까지의 오프셋을 예측함으로써, 전경 앵커 박스에 대해 오프셋을 수행하여 후보 바운딩 박스를 획득할 수 있으며, 상기 오프셋에 기반하여 후보 바운딩 박스의 파라미터를 획득할 수 있다.
일 예에 있어서, 앵커 박스는 방향 정보를 포함할 수 있으며, 검출될 목표 대상을 커버하기 위해 다양한 종횡비를 설정할 수 있다. 구체적인 방향의 개수 및 종횡비의 값은 실제 요구에 따라 설정될 수 있다. 도 11에 도시된 바와 같이, 구성된 앵커 박스는 6개의 방향에 대응하고, 여기서, w는 앵커 박스의 폭을 표시하고, l은 앵커 박스의 길이를 표시하며, θ는 앵커 박스의 각도(앵커 박스는 수평에 대한 회전 각도임)를 표시하고, (x, y)는 앵커 박스 중심점의 좌표를 표시한다. 방향에서 균일하게 분포된 6개의 앵커 박스에 대응하여, θ는 각각 0°, 30°, 60°, 90°, -30°, -60°이다.
일 예에 있어서, 후보 바운딩 박스를 생성한 후, 또한 비최대 억제 방법(Non-Maximum Suppression, NMS)을 통해 중첩된 검출 박스를 제거할 수 있다. 예를 들어 먼저 모든 후보 바운딩 박스를 순회하여, 신뢰도 점수가 가장 높은 후보 바운딩 박스를 선택할 수 있으며, 나머지 후보 바운딩 박스를 순회하여, 현재 최고 점수 바운딩 박스와의 교집합 대 합집합(Intersection over Union, IoU)이 특정 임계값보다 크면, 상기 바운딩 박스를 삭제한다. 그 후, 처리되지 않은 후보 바운딩 박스에서 점수가 가장 높은 후보 바운딩 박스를 계속 선택하고, 상기 과정을 반복한다. 여러 번 반복한 후, 최종적으로 억제되지 않고 보류되어, 결정된 후보 바운딩 박스로 사용된다. 도 2를 예로 들면, NMS 처리를 거친후, 후보 바운딩 박스맵(231)에서의 레이블 번호가 1, 2, 3인 세 개의 후보 바운딩 박스를 획득한다.
제2 브랜치에 대해,
상기 특징 데이터에 따라, 입력 이미지에서의 각 픽셀에 대해, 전경 또는 후경일 확률을 예측하고, 전경일 확률이 설정값의 픽셀보다 높으면 전경 픽셀로서 사용함으로써, 픽셀 레벨의 전경 분할 결과(241)를 생성한다.
제1 브랜치 및 제2 브랜치에 의해 출력된 결과 사이즈가 일치하므로, 따라서 후보 바운딩 박스를 픽셀 분할 결과에 매칭하고, 후보 바운딩 박스와 전경 분할 결과에 대응하는 전경 이미지 영역 사이의 중첩 영역에 따라, 목표 바운딩 박스를 결정한다. 예를 들어, 중첩 영역이 전체 후보 바운딩 박스에서 차지하는 비율이 제1 임계값보다 큰 후보 바운딩 박스를 상기 목표 바운딩 박스로 사용할 수 있다.
도 2를 예로 들면, 레이블 번호가 1, 2, 3인 세 개의 후보 바운딩 박스를 전경 분할 결과에 매칭하여, 각 후보 바운딩 박스와 전경 이미지 영역의 중첩 영역이 전체 후보 바운딩 박스에서 차지하는 비율을 계산할 수 있으며, 예를 들어, 후보 바운딩 박스(1)인 경우, 상기 비율은 92%이고, 후보 바운딩 박스(2)인 경우, 상기 비율은 86%이며, 후보 바운딩 박스(3)인 경우, 상기 비율은 65%이다. 제1 임계값이 70%인 경우, 후보 바운딩 박스(3)가 목표 바운딩 박스인 가능성을 배제하고, 최종 검출 출력 결과맵(250)에서, 목표 바운딩 박스는 후보 바운딩 박스(1) 및 후보 바운딩 박스(2)이다.
상기 방법을 통해 검출을 수행하여, 출력된 목표 바운딩 박스는 여전히 중첩될 가능성이 있다. 예를 들어, NMS 처리를 수행할 때, 임계값을 너무 높게 설정하면, 중첩된 후보 바운딩 박스가 억제되지 않을 수 있다. 후보 바운딩 박스와 전경 이미지 영역의 중첩 영역이 전체 후보 바운딩 박스에서 차지하는 비율이 제1 임계값을 초과할 경우, 최종 출력된 목표 바운딩 박스는 또한 중첩될 바운딩 박스를 포함할 가능성이 있다.
선택된 적어도 하나의 목표 바운딩 박스가 제1 바운딩 박스 및 제2 바운딩 박스를 포함하는 경우, 본 발명의 실시예는 다음의 방법을 통해 최종 목표 대상을 결정할 수 있다. 당업자는, 상기 방법은 두 개의 중첩 바운딩 박스를 처리하는 것에 대해 한정하지 않고, 먼저 두 개를 처리한 다음, 보류된 하나와 다른 바운딩 박스를 처리하는 방법으로, 복수 개의 중첩 바운딩 박스를 처리할 수 있음을 이해해야 한다.
일부 실시예에서, 상기 제1 바운딩 박스 및 상기 제2 바운딩 박스 사이의 협각에 기반하여, 상기 제1 바운딩 박스 및 상기 제2 바운딩 박스의 중첩 파라미터를 결정하며; 상기 제1 바운딩 박스 및 상기 제2 바운딩 박스의 중첩 파라미터에 기반하여, 상기 제1 바운딩 박스 및 상기 제2 바운딩 박스에 대응하는 목표 대상 위치를 결정한다.
두 개의 검출된 목표 대상이 밀집하게 배열된 경우, 양자의 목표 바운딩 박스(제1 바운딩 박스 및 제2 바운딩 박스)는 중복될 수 있다. 이러한 경우, 제1 바운딩 박스 및 제2 바운딩 박스의 IoU는 일반적으로 작다. 따라서, 본 발명은 제1 바운딩 박스 및 제2 바운딩 박스의 중첩 파라미터를 설정함으로써, 두개의 바운딩 박스에서의 검출 물체가 모두 목표 대상인지를 결정한다.
일부 실시예에서, 상기 중첩 파라미터가 제2 임계값보다 큰 경우, 제1 바운딩 박스 및 제2 바운딩 박스에는 단지 하나의 목표 대상만 있을 수 있음을 표시할 수 있으며, 따라서 그 중 하나의 바운딩 박스를 목표 대상 위치로 사용한다. 전경 분할 결과는 픽셀 레벨의 전경 이미지 영역을 포함하기 때문에, 상기 전경 이미지 영역을 사용하여 어느 바운딩 박스를 보류할지를 결정하여, 목표 대상의 바운딩 박스로 사용한다. 예를 들어, 제1 바운딩 박스와, 대응하는 전경 이미지 영역의 제1 중첩 파라미터 및 제2 바운딩 박스와, 대응하는 전경 이미지 영역의 제2 중첩 파라미터를 각각 계산할 수 있고, 제1 중첩 파라미터 및 제2 중첩 파라미터 중의 비교적 큰 값에 대응하는 목표 바운딩 박스 내의 파라미터를 목표 대상으로 결정하며, 비교적 작은 값에 대응하는 목표 바운딩 박스를 제거한다. 상기 방법을 통해, 하나의 목표 대상에서 중첩된 두 개 또는 복수 개의 바운딩 박스를 제거한다.
일부 실시예에서, 상기 중첩 파라미터가 제2 임계값보다 작거나 같을 경우, 상기 제1 바운딩 박스 및 상기 제2 바운딩 박스를 모두 목표 대상 위치로 사용한다.
다음, 최종 목표 대상을 결정하는 과정을 예시적으로 설명한다.
일 실시예에서, 도 3a에 도시된 바와 같이, 바운딩 박스(A, B)는 선박 검출 결과이며, 여기서, 바운딩 박스(A) 및 바운딩 박스(B)는 중첩되며, 양자의 중첩 파라미터는 0.1로 계산된다. 제2 임계값이 0.3인 경우, 바운딩 박스(A) 및 바운딩 박스(B)가 2 개의 상이한 선박의 검출인 것으로 결정한다. 바운드 박스를 픽셀 분할 결과에 매칭한 결과로부터, 바운딩 박스(A) 및 바운딩 박스(B)는 각각 상이한 선박에 대응한는 것을 알 수 있다. 두 개의 바운딩 박스의 중첩 파라미터가 제2 임계값보다 작을 경우, 바운딩 박스를 픽셀 분할 결과에 매핑하는 추가 과정이 필요하지 않으며, 위의 내용은 검증 목적으로만 사용된다.
다른 실시예에서, 도 3b에 도시된 바와 같이, 바운딩 박스(C, D)는 다른 선박 검출 결과이며, 여기서, 바운딩 박스(C) 및 바운딩 박스(D)는 중첩되고, 양자의 중첩 파라미터는 0.8로 계산되며, 즉 제2 임계값 0.3보다 크다. 상기 중첩 파라미터 계산 결과에 기반하여, 바운딩 박스(C) 및 바운딩 박스(D)는 실제적으로 동일한 선박의 바운딩 박스인 것으로 결정될 수 있다. 이 경우, 바운딩 박스(C) 및 바운딩 박스(D)를 픽셀 분할 결과에 매핑하여, 대응하는 전경 이미지 영역을 사용하여 최종 목표 대상을 결정할 수 있다. 바운딩 박스(C)와 전경 이미지 영역의 제1 중첩 파라미터, 및 바운딩 박스(D)와 전경 이미지 영역의 제2 중첩 파라미터를 계산한다. 예를 들어, 제1 중첩 파라미터가 0.9이고, 제2 중첩 파라미터가 0.8이면, 더 큰 값을 갖는 제1 중첩 파라미터에 대응하는 바운딩 박스(C)는 선박을 포함하고, 동시에 제2 중첩 파라미터에 대응하는 비운딩 박스(D)를 제거하여, 최종 출력 바운딩 박스(C)를 선박의 목표 바운딩 박스로 사용한다.
일부 실시예에서, 픽셀 분할 결과에 대응하는 전경 이미지 영역의 보조를 사용하여 중첩 바운딩 박스의 목표 대상을 결정하고, 픽셀 레벨의 전경 이미지 영역이 픽셀 분할 결과에 대응하므로, 공간 정확도가 높고, 따라서 중첩된 바운딩 박스와 전경 이미지 영역의 중첩 파라미터를 통해 목표 대상을 포함한 목표 바운딩 박스를 추가로 결정함으로써, 목표 정확도를 향상시킨다.
관련 기술에서, 채택된 앵커 박스는 일반적으로 각도 파라미터의 직사각형 박스를 포함하지 않으므로, 종횡비의 차이를 갖는 선박 등 목표 대상에 대해, 목표 대상이 경사된 상태에 있으면, 이러한 앵커 박스를 사용하여 결정된 목표 바운딩 박스는 목표 대상의 외접 직사각형 박스이며, 그의 면적과 목표 대상의 실제 면적의 차이는 매우 크다. 두 개의 밀집하게 배열된 목표 대상에 대해, 도 4에 도시된 바와 같이, 목표 대상(401)에 대응하는 목표 바운딩 박스(403)는 이의 외접 직사각형 박스이고, 목표 대상(402)에 대응하는 목표 바운딩 박스(404)도 이의 외접 직사각형 박스이며, 상기 두 개의 목표 대상의 목표 바운딩 박스 사이의 중첩 파라미터는 두 개의 외접 직사각형 박스 사이의 IoU이다. 목표 바운딩 박스와 목표 대상 사이 면적의 차이로 인해, 계산된 IoU의 오차도 매우 크며, 따라서 목표 검출의 회수율(recall)을 감소시킨다.
이러한 이유로, 전술한 바와 같이, 일부 실시예에서, 본 발명은 IoU의 계산 정확도를 증가시키기 위해, 앵커 박스는 앵커 박스의 각도 파라미터를 도입할 수 있다. 앵커 박스를 거쳐 계산된 상이한 목표 바운딩 박스의 각도는 서로 상이할 수도 있다.
이를 기반으로, 본 발명은 하기 중첩 파라미터를 계산하는 방법을 제공하며, 즉, 상기 제1 바운딩 박스 및 상기 제2 바운딩 박스 사이의 협각에 따라, 각도 인자를 획득하며; 상기 제1 바운딩 박스 및 상기 제2 바운딩 박스 사이의 IoU 및 상기 각도 인자에 따라, 상기 중첩 파라미터를 획득한다.
일 예에 있어서, 상기 중첩 파라미터는 상기 IoU와 상기 각도 인자의 곱셈이며, 여기서, 상기 각도 인자는 제1 바운딩 박스 및 제2 바운딩 박스 사이의 협각에 따라 획득될 수 있고, 그 값은 1보다 작으며, 제1 바운딩 박스 및 제2 바운딩 박스 사이의 각도가 증가함에 따라 증가한다.
예를 들어, 상기 각도 인자는 공식 (1)로 표시할 수 있다.
Figure pct00001
(1)
여기서,
Figure pct00002
제1 바운딩 박스 및 제2 바운딩 박스 사이의 협각이다.
다른 일 실시예에서, 상기 IoU가 특정 조건을 유지하는 경우, 상기 중첩 파라미터는 상기 제1 바운딩 박스 및 상기 제2 바운딩 박스 사이의 각도가 증가함에 따라 증가한다.
다음은 도 5a 및 도 5b를 예를 들어 설명하고, 상기 중첩 파라미터 계산 방법이 목표 검출에 대한 영향을 설명한다.
도 5a에서의 바운딩 박스(501) 및 바운딩 박스(502)에 대해, 양자의 면적의 IoU은 AIoU1이고, 양자 사이의 각도는
Figure pct00003
이다. 도 5b에서의 바운딩 박스(503) 및 바운딩 박스(504)에 대해, 양자 면적의 IoU는 AIoU2이고, 양자 사이의 각도는
Figure pct00004
이다. 여기서, AIoU1< AIoU2이다.
상기 중첩 파라미터 계산 방법을 사용하여, 각도 인자
Figure pct00005
를 증가하여 중첩 파라미터를 계산한다. 예를 들어, 두 개의 바운딩 박스 면적의 IoU 값과 각도 인자의 값을 곱셈하여, 중첩 파라미터를 획득한다.
예를 들어, 바운딩 박스(501) 및 바운딩 박스(502)의 중첩 파라미터
Figure pct00006
은 공식 (2)를 사용하여 계산할 수 있다.
Figure pct00007
(2)
바운딩 박스(503) 및 바운딩 박스(504)의 중첩 파라미터
Figure pct00008
는 공식 (3)을 사용하여 계산할 수 있다.
Figure pct00009
(3)
계산을 통해
Figure pct00010
를 획득할 수 있다.
각도 인자를 추가한 후, 도 5a 및 도 5b의 중첩 파라미터 계산 결과는 면적 IoU의 계산 결과에 비해, 크기 관계가 반대이다. 이것은 도 5a에서, 두 개의 바운딩 박스 사이의 각도가 크므로, 각도 인자의 값도 크며, 따라서 획득된 중첩 파라미터도 증가한다. 이에 따라, 도 5b에서, 두 개의 바운딩 박스 사이의 각도가 작으므로, 각도 인자의 값도 작으며, 따라서 획득된 중첩 파라미터도 감소된다.
두 개의 밀집하게 배열된 목표 대상에 대해, 양자 사이의 각도는 매우 작을 수 있다. 하지만 밀집하게 배열되었으므로, 검출된 양자의 바운딩 박스 사이의 면적의 중첩 부분이 클 수 있으며, 면적으로만 IoU를 계산하면, IoU의 결과가 클 수 있으므로, 두 개의 바운딩 박스에 동일한 목표 대상이 포함되어 있다고 잘못 판단하기 쉽다. 본 발명의 실시예에서 업급한 중첩 파라미터 계산 방법을 통해, 각도 인자를 도입함으로써, 밀집하게 배열된 목표 대상 사이의 중첩 파라미터의 계산 결과를 감소시켜, 정확하게 목표 대상을 검출함에 있어서 유리하며, 밀집하게 배영된 목표의 회수율을 향상시킨다.
당업자는, 상기 중첩 파라미터 계산 방법이 목표 바운딩 박스 사이의 중첩 파라미터를 계산하는 것에 한정되지 않고, 후보 바운딩 박스, 전경 앵커 박스, 실제 바운딩 박스 및 앵커 박스 등 각도 파라미터를 갖는 박스 사이의 중첩 파라미터를 계산할 수 있다. 또한, 다른 방식을 채택하여 중첩 파라미터를 계산할 수 있으며, 본 발명의 실시예는 이를 한정하지 않는다.
일부 예에서, 상기 목표 검출 방법은 훈련된 목표 검출 네트워크에 의해 구현될 수 있고, 상기 목표 검출 네트워크는 뉴럴 네트워크일 수 있다. 목표 검출 네트워크를 사용하기 전에, 최적화된 파라미터 값을 획득하기 위해 먼저 목표 검출 네트워크를 훈련시켜야 한다.
목표 검출 네트워크의 훈련 과정을 설명하기 위해 여전히 다음의 선박 검출 목표를 예로 들어 설명한다. 상기 목표 검출 네트워크는 특징 추출 네트워크, 목표 예측 네트워크 및 전경 분할 네트워크를 포함할 수 있다. 도 6에 도시된 훈련 방법 실시예의 흐름도를 참조하면, 다음의 단계를 포함할 수 있다.
단계 601에 있어서, 상기 특징 추출 네트워크를 통해 샘플 이미지에 대해 특징 추출 처리를 수행하여, 상기 샘플 이미지의 특징 데이터를 획득한다.
이 단계에서, 상기 샘플 이미지는 원격 감지 이미지일 수 있다. 원격 감지 이미지는 인공 위성, 항공기 등에 탑재된 센서에 의해 검출된 지상 물체의 전자기 복사 특징 신호에 의해 획득된 이미지이다. 샘플 이미지는 다른 유형의 이미지일 수 있고, 원격 감지 이미지에 한정되지 않는다. 또한, 상기 샘플 이미지는 미리 태깅된 목표 대상의 태그 정보를 포함한다. 상기 태그 정보는 정해진 목표 대상의 실제 바운딩 박스(ground truth)를 포함할 수 있고, 일 예에 있어서, 상기 태그 정보는 정해진 실제 바운딩 박스의 네 개의 꼭지점의 좌표일 수 있다. 특징 추출 네트워크는 컨볼루션 네트워크일 수 있고, 본 발명의 실시예는 특징 추출 네트워크의 구체적인 구조를 한정하지 않는다.
단계 602에 있어서, 상기 특징 데이터에 따라, 상기 목표 예측 네트워크를 ?v해 복수 개의 샘플 후보 바운딩 박스를 획득한다.
이 단계에서, 상기 샘플 이미지의 특징 데이터에 따라, 목표 대상을 생성하는 복수 개의 후보 바운딩 박스를 예측한다. 상기 후보 바운딩 박스에 포함된 정보는 상기 바운딩 박스가 전경 또는 후경일 확률 중 적어도 하나를 포함하고, 상기 바운딩 박스는 상기 바운딩 박스의 사이즈, 각도, 위치 등과 같은 파라미터를 포함한다.
단계 603에 있어서, 상기 특징 데이터에 따라 상기 샘플 이미지에서의 전경 분할 결과를 획득한다.
이 단계에서, 상기 특징 데이터에 따라, 상기 전경 분할 네트워크를 통해 상기 샘플 이미지의 샘플 전경 분할 결과를 획득한다. 여기서, 상기 샘플 전경 분할 결과는 상기 샘플 이미지의 복수 개의 픽셀 포인트에서의 각 픽셀 포인트가 전경에 속하는지 여부를 나타내는 지시 정보를 포함한다. 즉, 전경 분할 결과를 통해 대응하는 전경 이미지 영역을 획득할 수 있고, 상기 전경 이미지 영역은 모든 전경으로 예측된 픽셀을 포함한다.
단계 604에 있어서, 상기 복수 개의 샘플 후보 바운딩 박스, 상기 샘플 전경 분할 결과 및 상기 샘플 이미지의 태그 정보에 따라, 네트워크의 손실값을 결정한다.
상기 네트워크의 손실값은 상기 목표 예측 네트워크에 대응하는 제1 네트워크의 손실값, 및 상기 전경 분할 네트워크에 대응하는 제2 네트워크의 손실값을 포함할 수 있다.
일부 예에서, 상기 제1 네트워크의 손실값은 샘플 이미지에서의 태그 정보와 상기 샘플 후보 바운딩 박스의 정보에 따라 획득한다. 일 예에 있어서, 목표 대상의 태그 정보는 목표 대상의 실제 바운딩 박스의 네 개의 꼭지점의 좌표일 수 있고, 예측된 샘플 후보 바운딩 박스의 예측 파라미터는 후보 바운딩 박스의 길이, 폭, 수평에 대한 회전 각도, 중심점의 좌표일 수 있다. 실제 바운딩 박스의 네 개의 꼭지점의 좌표에 기반하여, 실제 바운딩 박스의 길이, 폭, 수평에 대한 회전 각도, 중심점의 좌표는 이에 따라 계산될 수 있다. 따라서, 샘플 후보 바운딩 박스의 예측 파라미터 및 실제 바운딩 박스의 실제 파라미터에 기반하여, 태그 정보와 예측 정보 사이의 차이를 구현하는 제1 네트워크의 손실값을 획득할 수 있다.
일부 예에서, 상기 제2 네트워크의 손실값은 샘플 전경 분할 결과와 실제 전경 이미지 영역에 따라 획득된다. 미리 태깅된 목표 대상의 실제 바운딩 박스에 기반하여, 원본 샘플 이미지에 태깅된, 목표 대상을 포함한 영역을 획득할 수 있고, 상기 영역에 포함된 픽셀은 실제 전경 픽셀이고, 실제 전경 이미지 영역이다. 따라서, 샘플 전경 분할 결과와 태그 정보에 기반하여, 즉 예측된 전경 이미지 영역과 실제 전경 이미지 영역 사이를 비교하여, 제2 네트워크의 손실값을 획득할 수 있다.
단계 605에 있어서, 상기 네트워크의 손실값에 기반하여, 상기 목표 검출 네트워크의 네트워크 파라미터에 대해 조정을 수행한다.
일 예에 있어서, 기울기 역전파 방법을 통해 상기 네트워크 파라미터를 조정할 수 있다.
후보 바운딩 박스의 예측 및 전경 이미지 영역의 예측은 특징 추출 네트워크에 의해 추출된 특징 데이터를 공유하므로, 두 개의 브랜치의 예측 결과와 태깅된 실제 목표 대상 사이의 차이를 통해 각 네트워크 파라미터를 공동으로 조정함으로써, 대상 레벨의 감독 정보 및 픽셀 레벨의 감독 정보를 동시에 제공할 수 있어, 특징 추출에 의해 추출된 특징의 품질을 향상시킨다. 또한, 본 발명의 실시예는 후보 바운딩 박스 및 전경 이미지의 네트워크를 예측하기 위한 원스테이지(one-stage) 검출기이며, 이는 높은 검출 효율을 구현할 수 있다.
일 예에 있어서, 상기 복수 개의 샘플 후보 바운딩 박스와 상기 샘플 이미지에 태깅된 적어도 하나의 실제 목표 바운딩 박스 사이의 IoU에 기반하여, 제1 네트워크의 손실값을 결정할 수 있다.
일 예에 있어서, IoU의 계산 결과를 사용하여, 복수 개의 앵커 박스로부터 양의 샘플 및 음의 샘플 중 적어도 하나를 선택할 수 있다. 예를 들어, 실제 바운딩 박스의 IoU가 특정 값(예를 들어 0.5)보다 큰 앵커 박스를 전경을 포함한 후보 바운딩 박스로 간주하고, 이를 목표 검출 네트워크를 훈련시키기 위한 양의 샘플로 사용하며; 또한 실제 바운딩 박스의 IoU가 특정 값(예를 들어, 0.1)보다 작은 앵커 박스를 네트워크를 훈려시키기 위한 음의 샘플로 사용할 수 있다. 선택된 양의 샘플 및 음의 샘플 중 적어도 하나에 기반하여, 제1 네트워크의 손실값을 결정한다.
제1 네트워크의 손실값을 계산하는 과정에서, 목표 대상 종횡비는 차이가 있기 때문에, 관련 기술에서 계산된 앵커 박스와 실제 바운딩 박스의 IoU 값은 작을 수 있으므로, 선택된 손실값을 계산하기 위한 양의 샘플이 감소됨으로써, 훈련 정확도에 영향을 미친다. 또한, 본 발명의 실시예는 방향을 갖는 파라미터의 앵커 박스를 사용하고, 상기 앵커 박스에 적응하고 IoU 계산의 정확도를 향상시키기 위해 본 발명은 IoU 계산 방법을 제안하며, 상기 방법은 앵커 박스와 실제 바운딩 박스의 Iou 계산에 사용될 수 있고, 후보 바운딩 박스와 실제 바운딩 박스 사이의 IoU 계산에 사용될 수도 있다.
상기 방법에서, 앵커 박스와 실제 바운딩 박스의 외접원 면적의 교집합과 합집합의 비율을 IoU로 사용할 수 있다. 다음 도 7을 예로 들어 설명한다.
바운딩 박스(701) 및 바운딩 박스(702)는 종횡비의 차이가 있고, 각도 파라미터의 직사각형 박스를 가지며, 양자의 종횡비는 예를 들어 5이다. 바운딩 박스(701)의 외접원은 외접원(703)이고, 바운딩 박스(702)의 외접원은 외접원(704)이며, 외접원(703) 및 외접원(704) 면적의 교집합(도면에서 음영 처리된 부분)과 합집합의 비율을 IoU로 사용한다.
앵커 박스와 실제 바운딩 박스의 IoU 계산에 대해, 다른 방식을 채택할 수도 있고, 본 발명의 실시예는 이를 한정하지 않는다.
이상의 실시예에서 제안된 IoU를 계산하는 방법은, 방향 정보의 제약을 통해, 많은 부분에서 형상은 비슷하지만 방향이 상이한 샘플을 보류하여, 선택된 양의 샘플의 개수 및 비율을 향상시킴으로써 방향 정보의 감독과 학습을 강화하여, 방향 예측 정확도를 향상시킨다.
다음의 서술에서, 목표 검출 네트워크의 훈련 방법에 대해 더 상세히 설명한다. 여기서, 하기는 검출된 목표 대상을 선박으로 예를 들어 상기 훈련 방법을 설명한다. 이해해야 할 것은, 본 발명에 의해 검출된 목표 대상은 선박으로 한정되지 않고, 다른 종횡비가 차이가 나는 대상일 수도 있다.
샘플 준비에 있어서,
뉴럴 네트워크를 훈련시키기 전에, 먼저 샘플 세트를 준비할 수 있고, 상기 샘플 세트는, 목표 검출 네트워크를 훈련시키는데 사용되는 복수 개의 훈련 샘플을 포함한다.
예를 들어, 아래 방식에 따라 훈련 샘플을 획득할 수 있다.
샘플 이미지로 사용되는 원격 감지 이미지에서, 선박의 실제 바운딩 박스를 태깅한다. 상기 원격 감지 이미지에, 복수 개의 선박이 포함될 수 있으며, 각 선박의 실제 바운딩 박스를 태깅할 필요가 있다. 동시에, 각 실제 바운딩 박스의 상기 바운딩 박스의 네 개의 꼭지점의 좌표와 같은 파라미터 정보에 대해 태깅할 필요가 있다.
선박의 실제 바운딩 박스를 태깅하는 동시에, 상기 실제 바운딩 박스 내의 픽셀을 실제 전경 픽셀로 결정하고, 즉, 선박의 실제 바운딩 박스를 태깅하는 동시에 선박의 실제 전경 이미지도 획득한다. 당업자는, 실제 바운딩 박스 내의 픽셀이 실제 바운딩 박스 자체에 포함된 픽셀도 포함한다는 것을 이해해야 한다.
목표 검출 네트워크 구조를 결정함에 있어서,
본 발명의 일 실시예에서, 목표 검출 네트워크는 특징 추출 네트워크, 및 상기 특징 추출 네트워크와 각각 캐스케이드된 목표 예측 네트워크 및 전경 분할 네트워크를 포함할 수 있다.
여기서, 특징 추출 네트워크는 샘플 이미지의 특징을 추출하기 위한 것이고, 컨볼루션 네트워크일 수 있으며, 예를 들어 기존의 VGG(Visual Geometry Group) 네트워크, ResNet, DenseNet 등을 사용할 수 있고, 다른 컨볼루션 네트워크 구조를 사용할 수도 있다. 본 출원은 특징 추출 네트워크의 구체적인 구조에 대해 한정하지 않으며, 하나의 가능한 선택적인 구현 방식에서, 특징 추출 네트워크는 컨볼루션 계층, 활성화 계층, 풀링 계층 등 네트워크 유닛을 포함할 수 있고, 상기 네트워크 유닛에 의해 특정 방식에 따라 적층된다.
목표 예측 네트워크는 목표 대상의 바운딩 박스를 예측하기 위한 것이며, 즉 후보 바운딩 박스를 생성하는 예측 정보도 예측하기 위한 것이다. 본 출원은 목표 예측 네트워크의 구체적인 구조에 대해 한정하지 않으며, 하나의 가능한 선택적인 구현 방식에서, 목표 예측 네트워크는 컨볼루션 계층, 분류 계층, 회귀 계층 등 네트워크 유닛을 포함할 수 있고, 상기 네트워크 유닛에 의해 특정 방식에 따라 적층된다.
전경 분할 네트워크는 샘플 이미지에서의 전경 이미지를 예측하기 위한 것이며, 즉 목표 대상을 포함한 픽셀 영역을 예측하기 위한 것이다. 본 출원은 전경 분할 네트워크의 구체적인 구조에 대해 한정하지 않으며, 하나의 가능한 선택적인 구현 방식에서, 전경 분할 네트워크는 업 샘플링 계층, 마스크(mask) 계층를 포함할 수 있고, 상기 네트워크 유닛에 의해 특정 방식에 따라 적층된다.
도 8은 본 발명의 실시예에 적용될 수 있는 목표 검출 네트워크의 네트워크 구조를 도시하며, 설명해야 할 것은, 도 8은 목표 검출 네트워크를 예시적으로 도시하였을 뿐이고, 실제 구현에서 이에 한정되지 않는다.
도 8에 도시된 바와 같이, 목표 추출 네트워크는 특징 추출 네트워크(810), 및 특징 추출 네트워크(810)와 각각 캐스케이드된 목표 예측 네트워크(820) 및 전경 분할 네트워크(830)를 포함한다.
여기서, 특징 추출 네트워크(810)는 순차적으로 연결된 제1 컨볼루션 계층(C1)(811), 제1 풀링 계층(P1)(812), 제2 컨볼루션 계층(C2)(813), 제2 풀링 계층(P2)(814) 및 제3 컨볼루션 계층(C3)(815)을 포함하고, 즉, 특징 추출 네트워크(810)에서, 컨볼루션 계층 및 풀링 계층은 교대로 연결된다. 컨볼루션 계층은 복수 개의 컨볼루션 커널을 통해 이미지에서의 상이한 특징을 각각 추출하여, 복수의 특징맵을 획득하며, 풀링 계층이 컨볼루션 계층 다음에 위치하면, 특징맵의 데이터에 대해 국부 평균화 및 다운 샘플링의 동작을 수행함으로써, 특징 데이터의 해상도가 줄일 수 있다. 컨볼루션 계층 및 풀링 계층의 개수가 증가함에 따라, 특징맵의 수가 점차 증가하고, 특징맵의 해상도는 점차 감소한다.
특징 추출 네트워크(810)에 의해 출력된 다중 채널의 특징 데이터를 목표 예측 네트워크(820) 및 전경 분할 네트워크(830)에 각각 입력한다.
목표 예측 네트워크(820)는 제4 컨볼루션 계층(C4)(821), 분류 계층(822) 및 회귀 계층(823)을 포함한다. 여기서, 분류 계층(822) 및 회귀 계층(823)은 각각 제4 컨볼루션 계층(821)과 캐스케이드된다.
제4 컨볼루션 계층(821)은 스와이프 원도우(예를 들어, 3*3)를 사용하여 입력된 특징 데이터에 대해 컨볼루션을 수행하고, 각 원도우는 복수 개의 앵커 박스에 대응하며, 각 원도우는 분류 계층(823) 및 회귀 계층(824) 완전 연결하기 위한 하나의 백터를 생성한다. 여기서 또한, 2개 또는 북수 개의 컨볼루션 계층을 사용하여, 입력된 특징 데이터에 대해 컨볼루션을 수행할 수 있다.
분류 계층(822)은 앵커 박스에 의해 생성된 바운딩 박스 내부가 전경 또는 후경인지를 판단하기 위한 것이고, 회귀 계층(823)은 후보 바운딩 박스의 대략적인 위치를 얻기 위한 것이며, 분류 계층(822) 및 회귀 계층(823)의 출력 결과에 기반하여, 목표 대상을 포함한 후보 바운딩 박스를 예측할 수 있고, 또한 상기 후보 바운딩 박스 내부가 전경 또는 후경인 확률 및 상기 후보 바운딩 박스의 파라미터를 출력한다.
전경 분할 네트워크(830)는 업 샘플링 계층(831) 및 마스크 계층(832)을 포함한다. 업 샘플링 계층(831)은 입력된 특징 데이터를 원본 샘플 이미지 크기로 전환하기 위한 것이며; 마스크 계층(832)은 전경의 이진 마스크를 생성하기 위한 것이며, 즉 전경 픽셀에 대해 1을 출력하고, 후경 픽셀에 대해 0을 출력한다.
또한, 후보 바운딩 박스와 전경 이미지 영역의 중첩 영역을 계산할 때, 특징 위치가 대응되도록, 제4 컨볼루션 계층(821) 및 마스크 계층(832)으로부터 이미지 사이즈의 전환을 수행할 수 있고, 즉 목표 예측 네트워크(820) 및 전경 분할 네트워크(830)의 출력은 이미지에서 동일한 위치의 정보를 예측하여, 중첩 영역을 계산할 수 있다.
상기 목표 검출 네트워크를 훈련시키기 전에, 일부 네트워크 파라미터를 설정할 수 있으며, 예를 들어, 특징 추출 네트워크(810)에서 각 컨볼루션 계층 및 목표 예측 네트워크에서 컨볼루션 계층에 사용된 컨볼루션 커널의 개수를 설정할 수 있고, 컨볼루션 커널의 사이즈 크기 등을 설정할 수도 있다. 컨볼루션 커널의 값 및 다른 계층의 가중치 등 파리미터 값에 대해, 반복 훈련을 통해 자체 학습을 수행할 수 있다.
훈련 샘플 및 초기화 목표 검출 네트워크 구조를 준비한 기초 상에서, 목표 검출 네트워크의 훈련을 시작할 수 있다. 아래에 목표 검출 네트워크의 구체적인 훈련 방법을 열거한다.
목표 검출 네트워크 훈련 1에 있어서,
일부 실시예에서, 목표 검출 네트워크의 구조는 도 8을 참조할 수 있다.
도 9의 예를 참조하면, 목표 검출 네트워크를 입력하는 샘플 이미지는 선박 이미지의 원격 감지 이미지를 포함할 수 있다. 또한 상기 샘플 이미지에서, 포함된 선박의 실제 바운딩 박스를 태깅하고, 태그 정보는 상기 바운딩 박스의 네개의 꼭지점의 좌표와 같은 실제 바운딩 박스의 파라미터 정보일 수 있다.
입력된 샘플 이미지는 먼저 특징 추출 네트워크를 통해, 샘플 이미지의 특징을 추출하여, 상기 샘플 이미지의 다중 채널 특징 데이터를 출력한다. 특징 데이터를 출력하는 크기 및 채널수는 특징 추출 네트워크의 컨볼루션 계층 구조 및 풀링 계층 구조에 따라 결정된다.
상기 다중 채널 특징 데이터는 한편으로 목표 예측 네트워크에 진입하여, 목표 예측 네트워크는 현재의 네트워크 파라미터에 기반하여 설정되고, 입력된 특징 데이터에 기반하여, 선박을 포함한 후보 바운딩 박스를 예측하며, 상기 후보 바운딩 박스의 예측 정보를 생성한다. 상기 예측 정보는 상기 바운딩 박스가 전경 또는 후경일 확률, 및 상기 바운딩 박스의 사이즈, 위치, 각도 등과 같은 파라미터 정보를 포함할 수 있다. 미리 표시된 목표 대상의 태그 정보 및 예측된 후보 바운딩 박스의 예측 정보에 기반하여, 제1 네트워크 손실 함수의 값 LOSS1을 획득할 수 있고, 즉 제1 네트워크의 손실값을 획득한다. 상기 제1 네트워크 손실 함수의 값은 태그 정보와 예측 정보 사이의 차이를 구현한다.
다른 측면에 있어서, 상기 다중 채넬 특징 데이터는 전경 분할 네트워크에 진입하고, 전경 분할 네트워크는 현재의 네트워크 파라미터에 기반하여 설정하며, 샘플 이미지에서 선박을 포함한 전경 이미지 영역을 예측한다. 예를 들어, 특징 데이터를 통해 각 픽셀은 전경 또는 후경의 확률이고, 설정값보다 큰 전경 확률은 모두 전경 픽셀로 사용되어, 픽셀 분할을 수행함으로써, 예측된 전경 이미지 영역을 획득할 수 있다.
샘플 이미지에 선박의 실제 바운딩 박스를 미리 태깅하므로, 상기 실제 바운딩 박스의 네 개의 꼭지점의 좌표와 같은 파라미터를 통해, 샘플 이미지의 전경의 픽셀을 얻을 수 있으며, 즉 샘플 이미지에서의 실제 전경 이미지임을 알 수 있다. 예측된 전경 이미지와 태그 정보를 통해 획득한 실제 전경 이미지에 기반하여, 제2 네트워크 손실 함수의 값 LOSS2를 획득할 수 있으며, 즉 제2 네트워크의 손실값을 획득한다. 상기 제2 네트워크 손실 함수의 값은 예측된 전경 이미지와 태그 정보 사이의 차이를 반영한다.
제1 네트워크 손실 함수의 값 및 제2 네트워크 손실 함수의 값에 기반하여 공동으로 결정된 총 손실값은 네트워크 파라미터의 값을 조정하기 위해 목표 검출 네트워크로 역전할 수 있으며, 예를 들어 컨볼루션 커널의 값, 다른 계층의 가중치를 조정한다. 일 예에 있어서, 제1 네트워크 손실 함수 및 제2 네트워크 손실 함수의 합을 총 손실 함수로 결정하여, 총 손실 함수를 사용하여 파라미터 조정을 실행한다.
목표 검출 네트워크를 훈련 동안, 훈련 샘플 세트를 복수 개의 이미지 서브 세트(배치(batch))로 나누고, 각 이미지 서브 세트는 하나 또는 복수 개의 훈련 샘플을 포함한다. 훈련을 반복할 때마다, 하나의 이미지 서브 세트를 네트워크에 순차적으로 입력하고, 상기 이미지 서브 세트에 포함된 훈련 샘플에서 각 샘플 예측 결과의 손실값을 결합하여 네트워크 파라미터의 조정을 수행한다. 이번 반복 훈련 완료 후, 다음번 반복 훈련을 수행하기 위해, 네트워크에 다음번 이미지 서브 세트를 입력한다. 상이한 이미지 서브 세트에 포함된 훈련 샘플은 적어도 부분적으로 상이하다. 소정의 종료 조건에 도달하면, 목표 검출 네트워크의 훈련을 완료할 수 있다. 상기 소정의 훈련 종료 조건, 예를 들어 총 손실값(LOSS값)에서 특정 임계값으로 떨어지거나, 또는 소정의 목표 검출 네트워크의 반복 횟수에 도달할 수 있다.
본 실시예는 목표 검출 네트워크 훈련 방법을 제공하며, 목표 예측 네트워크로부터 대상 레벨의 감독 정보를 제공하고, 픽셀 분할 네트워크를 통해 픽셀 레벨의 감독 정보를 제공하며, 두 개의 상이한 계층의 감독 정보를 통해, 특징 추출에 의해 추출된 특징의 품질을 향상시키고, 또한, one-stage의 목표 예측 네트워크 및 픽셀 분할 네트워크를 사용하여 검출을 수행함으로써, 검출 효율을 향상시킨다.
목표 검출 네트워크 훈련 2에 있어서,
일부 실시예에서, 목표 예측 네트워크는 다음의 방식을 통해 획득된 목표 대상의 후보 바운딩 박스를 예측한다. 목표 예측 네트워크의 구조는 도 8을 참조할 수 있다.
도 10은 예측 후보 바운딩 박스의 방법의 흐름도이고, 도 10에 도시된 바와 같이, 상기 프로세스는 아래의 단계를 포함할 수 있다.
단계 1001에 있어서, 상기 특징 데이터의 각 포인트를 앵커로 사용하고, 각 앵커를 중심으로 하여 복수 개의 앵커 박스를 구성한다.
예를 들어, 크기가 [H×W]인 특징 계층에 대해, 총 H×W×k 개의 앵커 박스를 구성하며, 여기서, k는 각 앵커에서 생성된 앵커 박스의 개수이다. 여기서, 검출될 목표 대상을 포함할 수 있도록, 하나의 앵커에 구성된 복수 개의 앵커 박스에 대해 상이한 종횡비를 구성한다. 먼저, 선험적 지식을 기반할 수 있고, 예를 들어 대부분 목표의 사이즈 분포를 통계하여, 하이퍼 파라미터를 통해 직접적으로 선험적 앵커 박스를 생성한 후, 특징을 통해 앵커 박스를 예측한다.
단계 1002에 있어서, 상기 앵커를 다시 상기 샘플 이미지에 매핑하여, 각 앵커 박스가 상기 샘플 이미지에 포함된 영역을 획득한다.
이 단계에서, 모든 앵커를 다시 샘플 이미지에 매팽하고, 즉 특징 데이터를 다시 샘플 이미지에 매핑하면, 앵커를 중심으로 하여 생성된 앵커 박스가 샘플 이미지에서 선택된 영역을 획득할 수 있다. 선험 앵커 박스, 예측 값 및 현재의 특징 해상도를 결합하여 함께 계산할 수 있고, 앵커 박스를 샘플 이미지의 위치 및 크기에 다시 매핑하여, 각 앵커 박스가 샘플 이미지에 포함된 영역을 획득한다.
상기 과정은 하나의 컨볼루션 커널(스와이프 원도우)에 입력된 특징 데이터에 대해 스와이프 동작을 수행하는 것과 동일하며, 컨볼루션 커널을 특징 데이터의 어느 하나의 위치로 스와이프할 경우, 현재 스와이프 원도우 중심을 중심으로 하여 샘플 이미지의 하나의 영역을 다시 매핑하고, 샘플 이미지에서 이 영역의 중심을 대응하는 앵커로 한 다음, 앵커를 중심으로 하여 앵커 박스를 선택한다. 다시 말해서, 앵커는 특징 테이터에 기반하여 정의되지만, 최종으로 원본 샘플 이미지와 관련된다.
도 8에 도시된 목표 예측 네트워크 구조에 대해, 제4 컨볼루션 계층(821)을 통해 추출 특징의 과정을 구현할 수 있고, 제4 컨볼루션 계층(821)의 컨볼루션 커널의 크기는 예를 들어 3×3일 수 있다.
단계 1003에 있어서, 샘플 이미지에 다시 매핑된 앵커 박스와 실제 바운딩 박스의 IoU에 기반하여 전경 앵커 박스를 결정하며, 상기 전경 앵커 박스 내부가 전경 또는 후경일 확률을 획득한다.
이 단계에서, 앵커 박스가 상기 샘플 이미지에 포함된 영역과 실제 바운딩 박스의 중첩된 상황을 비교하여, 어느 앵커 박스 내부가 전경이고, 어느 앵커 박스 내부가 후경인지를 결정하고, 즉 각 앵커 박스에 대해 전경 또는 후경의 라벨(label)을 모두 지정하여, 전경 라벨을 갖는 앵커 박스를 전경 앵커 박스라 하고, 후경 라벨을 갖는 앵커 박스를 후경 앵커 박스라고 한다.
일 예에 있어서, 진실 바운딩 박스의 IoU가 제1 설정값(예를 들어 0.5)보다 큰 앵커 박스를 전경을 포함한 후보 바운딩 박스로 간주할 수 있다. 또한, 앵커 박스를 통해 이진 분류로 나눠, 앵커 박스 내부가 전경 또는 후경일 확률을 결정한다.
전경 앵커 박스를 사용하여 목표 검출 네트워크를 훈련시킬수 있고, 예를 들어 이러한 전경 앵커 박스를 함수의 계산에 사용하기 위해, 양의 샘플로서 사용하여 네트워크를 훈련시키고, 이 부분의 손실은 일반적으로 분류 손실이라 하며, 이 손실은 전경 앵커 박스의 이진 분류 확률과 전경 앵커 박스의 라벨에 기반하여 비교한다.
하나의 이미지 서브 세트는, 하나의 샘플 이미지로부터 무작위로 추출된 복수 개(예를 들어 256 개)의 라벨을 전경으로 한 앵커 박스를 포함할 수 있고, 훈련을 위한 양의 샘플로 사용된다.
일 예에 있어서, 양의 샘플 개수가 부족한 경우, 또한 음의 샘플을 사용하여 목표 검출 네트워크를 훈련시킬수 있다. 음의 샘플은 예를 들어 실제 바운딩 박스의 IoU가 제2 설정값(예를 들어, 0.1)보다 작은 앵커 박스일 수 있다.
상기 예에서, 하나의 이미지 서브 세트로 하여금 하나의 샘플 이미지에서 부작위로 추출된 256 개의 앵커 박스를 포함도록 하고, 여기서128 개의 라벨을 전경으로 한 앵커 박스는, 양의 샘플로 사용되고, 다른 128 개는 실제 바운딩 박스의 IoU가 제2 설정값(예를 들어, 0.1)보다 작은 앵커 박스를 음의 샘플로 사용하여, 양의 샘플 및 음의 샘플의 비율이 1:1에 도달하도록 한다. 하나의 이미지에서의 양의 샘플 수가 128보다 작으면, 더 많은 음의 샘플을 사용하여 훈련을 위한 256 개의 앵커 박스를 만족시킬수 있다.
단계 1004에 있어서, 상기 전경 앵커 박스에 대해 바운딩 박스 회귀를 수행하여, 후보 바운딩 박스를 획득하고, 상기 후보 바운딩 박스의 파라미터를 획득한다.
이 단계에서, 전경 앵커 박스, 후보 바운딩 박스의 파라미터 유형과 앵커 박스의 파라미터 유형은 일치하며, 즉, 구성된 앵커 박스가 어느 한 파라미터를 포함하면, 생성된 후보 바운딩 박스도 같은 파라미터를 포함한다.
단계 1003에서 획득된 전경 앵커 박스는, 종횡비가 샘플 이미지에서의 선박의 종횡비와 차이가 있고, 또한 전경 앵커 박스의 위치, 각도도 선박 샘플과 차이가 있으므로, 전경 앵커 박스 및 대응하는 실제 바운딩 박스 사이의 오프셋을 사용하여 회귀 훈련을 수행할 필요가 있어, 목표 예측 네트워크로 하여금 전경 포인트 박스를 통해 후보 바운딩 박스에 대한 오프셋을 예측하는 능력을 구비하도록 함으로써, 후보 바운딩 박스의 파라미터를 획득한다.
단계 1003 및 단계 1004를 통해, 후보 바운딩 박스를 획득할 수 있는 정보는, 후보 바운딩 박스 내부가 전경 또는 후경일 확률, 및 후보 바운딩 박스의 파라미터이다. 상기 후보 바운딩 박스의 정보, 및 샘플 이미지에서의 태깅 정보(목표 대상에 대응하는 실제 바운딩 박스)에 기반하여, 제1 네트워크 손실을 획득할 수 있다.
본 발명의 실시예에서, 목표 예측 네트워크는 one stage 네트워크이고, 후보 다운딩 박스를 획득하는 것을 처음 예측한 후, 후보 바운딩 박스의 예측 결과를 출력하여, 네트워크의 검출 효율을 향상시킨다.
목표 검출 네트워크 훈련 3에 있어서,
관련 기술에서, 각 앵커에 대응하는 앵커 박스의 파라미터는 일반적으로 길이, 폭 및 중심점의 좌표를 포함한다. 본 실시예에서, 회전 앵커 박스의 설정 방법을 제안한다
일 예에 있어서, 각 앵커를 중심으로 하여 복수 개의 방향의 앵커 박스를 구성하고, 검출될 목표 대상을 포함하기 위해 다양한 종횡비를 설정할 수 있다. 구체적인 방향의 개수 및 종횡비의 값은 실제 요구에 따라 설정될 수 있다. 도 11에 도시된 바와 같이, 구성된 앵커 박스는 6개의 방향에 대응하고, 여기서, w는 앵커 박스의 폭을 표시하고, l는 앵커 박스의 길이를 표시하며, θ는 앵커 박스의 각도(앵커 박스은 수평에 대한 회전 각도임)를 표시하고, (x, y)는 앵커 박스 중심점의 좌표를 표시한다. 방향에서 균일하게 분포된 6개의 앵커 박스에 대응하여, θ는 각각 0°, 30°, 60°, 90°, -30°, -60°이다. 이에 따라, 상기 예에서, 앵커 박스의 파라미터는 (x, y, w, l, θ)로 표시될 수 있다. 여기서, 종횡비는 1, 3, 5로 설정될 수 있고, 검출된 목표 대상에 대해 다른 값으로 설정할 수 있다.
일부 실시예에서, 후보 바운딩 박스의 파라미터는 또한 (x, y, w, l, θ)로 표시할 수 있고, 상기 파라미터는 도 8에서의 회귀 계층(823)을 사용하여 회귀 계산을 수행할 수 있다. 회귀 계산 방법은 다음과 같다.
먼저, 전경 앵커 박스에서 실제 바운딩 박스까지의 오프셋을 계산한다.
예를 들어, 전경 앵커 박스의 파라미터 값은 [Ax, Ay, Aw, Al, Aθ]이고, 여기서, Ax, Ay, Aw, Al, Aθ는 전경 앵커 박스의 중심점 x 좌표, 중심점 y 좌표, 폭, 길이, 각도를 각각 표시하며; 실제 바운딩 박스에 대응하는 다섯 개의 값은 [Gx, Gy, Gw, Gl, Gθ]이고, 여기서, Gx, Gy, Gw, Gl, Gθ는 실제 바운딩 박스의 중심점x 좌표, 중심점y 좌표, 폭, 길이, 각도를 각각 표시한다.
전경 앵커 박스의 파라미터 값 및 실제 바운딩 박스의 값에 기반하여 전경 앵커 박스와 실제 바운딩 박스 사이의 오프셋 [dx(A), dy(A), dw(A), dl(A), dθ(A)]을 결정할 수 있고, 여기서, dx(A), dy(A), dw(A), dl(A), dθ(A)는 중심점x 좌표, 중심점y 좌표, 폭, 길이, 각도의 오프셋을 각각 표시한다. 각 오프셋은 예를 들어 공식 (4) - 공식 (8)을 통해 계산될 수 있다.
Figure pct00011
(4)
Figure pct00012
(5)
Figure pct00013
(6)
Figure pct00014
(7)
Figure pct00015
(8)
여기서, 공식 (6) 및 공식 (7)은 대수를 사용하여 길이 및 너비의 오프셋을 표시하며, 이는 차이가 큰 경우 빠르게 수렴하기 위한 것이다.
일 예에 있어서, 입력된 다중 채널 특징 데이터에 복수 개의 실제 바운딩 박스가 있는 경우, 각 전경 앵커 박스는 오프셋을 계산하기 위해 중첩도가 가장 높은 실제 바운딩 박스를 선택한다.
다음, 전경 앵커 박스에서 후보 바운딩 박스까지의 오프셋을 획득한다.
다음은 표현식을 찾아 앵커 박스와 실제 바운딩 박스의 관계를 설정하는 과정이며, 회귀를 사용하여 구현할 수 있다. 도 8에서의 네트워크 구조를 예로 들면, 상기 오프셋 훈련 회귀 계층(823)을 사용할 수 있다. 훈련이 완료된 후, 목표 예측 네트워크는 각 앵커 박스로부터 이에 대응하는 최적 후보 바운딩 박스의 오프셋 [dx’(A), dy’(A), dw’(A), dl’(A), dθ’(A)]을 식별하는 능력을 구비하고, 다시 말해서, 앵커 박스의 파라미터 값에 기반하여 후보 바운딩 박스의 파라미터 값을 결정할 수 있고, 중심점 x 좌표, 중심점 y 좌표, 폭, 길이, 각도를 포함한다. 훈련 동안, 회귀 계층를 사용하여 먼저 전경 앵커 박스에서 후보 바운딩 박스까지의 오프셋을 계산할 수 있다. 훈련 동안 네트워크 파라미터의 최적화가 완료되지 않았으므로, 상기 오프셋과 실제 오프셋 [dx(A), dy(A), dw(A), dl(A), dθ(A)]의 차이가 비교적 클 수 있다.
마지막으로, 상기 오프셋에 기반하여 상기 전경 앵커 박스에 대해 오프셋을 수행하여, 상기 후보 바운딩 박스를 획득하고, 상기 후보 바운딩 박스의 파라미터를 획득한다.
제1 네트워크 손실 함수의 값을 계산할 때, 전경 앵커 박스에서 후보 바운딩 박스까지의 오프셋 [dx’(A), dy’(A), dw’(A), dl’(A), dθ’(A)]과 훈련 동안 전경 앵커 박스와 실제 바운딩 박스의 오프셋 [dx(A), dy(A), dw(A), dl(A), dθ(A)]을 사용하여 회귀 손실을 계산할 수 있다.
전술한 예측된 전경 앵커 박스 내부가 전경 또는 후경일 활률은, 상기 전경 앵커 박스에 대해 회귀를 수행하여 후보 바운딩 박스를 획득한 후, 상기 확률은 후보 바운딩 박스 내부가 전경 또는 후경일 확률이고, 상기 활률에 기반하여 예측 후보 바운딩 박스 내부가 전경 또는 후경인 분류 손실을 결정할 수 있다. 상기 분류 손실과 후보 바운딩 박스의 파라미터를 예측하는 회귀 손실의 합은 제1 네트워크 손실 함수의 값을 구성한다. 하나의 이미지 서브 세트에 대해, 모든 후보 바운딩 박스의 제1 네트워크 손실 함수의 값에 기반하여, 네트워크 파라미터의 조정을 수행할 수 있다.
방향을 가진 앵커 박스를 설정함으로써, 목표 대상 예측 자세에 더 적합한 외접 직사각형 바운딩 박스를 생성할 수 있어, 바운딩 박스 사이의 중첩 부분의 계산은 더 정밀하고 정확해진다.
목표 검출 네트워크 훈련 4에 있어서,
표준 정보와 후보 바운딩 박스의 정보에 기반하여 제1 네트워크 손실 함수의 값을 획득할 때, 앵커 박스의 각 파라미터의 가중치 비율은 폭의 가중치 비율이 다른 파라미터의 가중치 비율보다 높도록 설정될 수 있으며, 설정된 가중치 비율에 따라, 제1 네트워크의 손실 함수의 값을 계산한다.
파라미터의 가중치 비율이 높을수록, 최종적으로 계산된 손실값에 대한 기여도가 더 크고, 네트워크 파라미터에 대해 조정을 수행할 때, 조정된 결과가 상기 파라미터 값에 대한 영향이 크며, 따라서 상기 파라미터의 계산 정확도는 다른 파라미터보다 높다. 종횡비의 차이를 갖는 선박 등 목표 대상에 대해, 폭이 길이보다 매우 작으므로, 폭의 가중치를 다른 파라미터의 가중치보다 높게 설정하여, 폭의 예측 정확도를 향상시킬 수 있다.
목표 검출 네트워크 훈련 5에 있어서,
일부 실시예에서, 다음의 방식을 통해 샘플 이미지를 획득하는 전경 이미지 영역을 획득할 수 있다. 전경 분할 네트워크의 구조는 도 8을 참조할 수 있다.
도 12는 전경 이미지 영역을 예측하는 방법의 실시예의 흐름도이고, 도 12에 도시된 바와 같이, 상기 프로세스는 다음의 단계를 포함할 수 있다.
단계 1201에 있어서, 처리된 특징 데이터의 크기와 샘플 이지미의 크기가 동일하도록 상기 특징 데이터에 대해 업 샘플링 처리를 수행한다.
예를 들어, 디 컨볼루션 계층, 또는 이중 선형 차이 값을 통해 특징 데이터에 대해 업 샘플링 처리를 수행할 수 있고, 특징 데이터를 샘플 이미지 크기로 확대한다. 다중 채널 특징 데이터를 픽셀 분할 네트워크에 입력하므로, 업 샘플링 처리를 거친후, 상응하는 채널수, 샘플 이미지 크기와 일치한 특징 데이터를 획득한다. 특징 데이터의 각 위치는 윈시 이미지 위치와 일대일로 대응된다.
단계 1202에 있어서, 상기 처리된 상기 특징 데이터에 기반하여 픽셀 분할을 수행하여, 상기 샘플 이미지의 샘플 전경 분할 결과를 획득하는 단계를 포함한다.
특징 데이터의 각 픽셀에 대해, 전경 또는 후경에 속하는 활률이 판단될 수 있다. 임계값을 설정함으로써, 전경에 속할 확률이 설정된 임계값보다 큰 픽셀을 전경 픽셀로 결정할 수 있고, 각 픽셀에 대해 마스크 정보를 생성할 수 있으며, 일반적으로 0.1로 표시할 수 있고, 여기서, 0으로 후경을 표시하고, 1로 전경을 표시할 수 있다. 상기 마스크 정보에 기반하여, 전경 픽셀로 결정할 수 있음으로써, 픽셀 레벨의 전경 분할 결과를 획득한다. 특징 데이터 상의 각 픽셀은 모두 샘플 이미지 상의 영역에 대응하고, 샘플 이미지에서 목표 대상의 실제 바운딩 박스를 태깅하였으므로, 태그 정보에 따라, 각 픽셀의 분류 결과와 실제 바운딩 박스의 차이를 결정하여, 분류 손실을 획득한다.
상기 픽셀 분할 네트워크는 바운딩 박스의 위치 결정을 포함하지 않으므로, 대응하는 제2 네트워크 손실 함수의 값은 각 픽셀의 분류 손실의 합을 통해 결정될 수 있다. 네트워크 파라미터를 연속적으로 조정함으로써, 제2 네트워크의 손실값을 최소화하고, 각 픽셀의 분류를 보다 정확하게 함으로써, 목표 대상의 전경 이미지를 보다 정확하게 할 수 있다.
일부 실시예에서, 특징 데이터에 대해 업 샘플링 처리를 수행하고, 각 픽셀에 대해 마스크 정보를 생성함으로써, 픽셀 레벨의 전경 이미지 영역을 획득할 수 있으며, 이는 목표 검출의 정확도를 향상시킨다.
도 13은 목표 검출 장치를 제공하고, 도 13에 도시된 바와 같이, 상기 장치는, 특징 추출 유닛(1301), 목표 예측 유닛(1302), 전경 분할 유닛(1303) 및 목표 결정 유닛(1304)을 포함할 수 있다.
특징 추출 유닛(1301)은, 입력 이미지의 특징 데이터를 획득하기 위한 것이다.
목표 예측 유닛(1302)는, 상기 특징 데이터에 따라, 상기 입력 이미지의 복수 개의 후보 바운딩 박스를 결정하기 위한 것이다.
전경 분할 유닛(1303)은, 상기 특징 데이터에 따라, 상기 입력 이미지의 전경 분할 결과를 획득하기 위한 것이고, 여기서, 전경 분할 결과는 상기 입력 이미지의 복수 개의 픽셀에서의 각 픽셀이 전경에 속하는지 여부를 나타내는 지시 정보를 포함한다.
목표 결정 유닛(1304)은, 상기 복수 개의 후보 바운딩 박스와 상기 전경 분할 결과에 따라, 상기 입력 이미지의 목표 검출 결과를 획득하기 위한 것이다.
다른 실시예에서, 상기 목표 결정 유닛(1304)은 구체적으로, 상기 복수 개의 후보 바운딩 박스에서의 각 후보 바운딩 박스와 상기 전경 분할 결과에 대응하는 전경 이미지 영역 사이의 중첩 영역에 따라, 복수 개의 후보 바운딩 박스로부터 적어도 하나의 목표 바운딩 박스를 선택하고; 상기 적어도 하나의 목표 바운딩 박스에 기반하여, 상기 입력 이미지의 목표 검출 결과를 획득하기 위한 것이다.
다른 실시예에서, 상기 목표 결정 유닛(1304)은 상기 복수 개의 후보 바운딩 박스에서의 각 후보 바운딩 박스와 상기 전경 분할 결과에 대응하는 전경 이미지 영역 사이의 중첩 영역에 따라, 복수 개의 후보 바운딩 박스로부터 적어도 하나의 목표 바운딩 박스를 선택하기 위해 사용될 경우, 구체적으로, 상기 복수 개의 후보 바운딩 박스에서의 각 후보 바운딩 박스에 대해, 상기 후보 바운딩 박스 및 대응하는 전경 이미지 영역 사이의 중첩 영역이 상기 후보 바운딩 박스에서 차지하는 비율이 제1 임계값보다 크면, 상기 후보 바운딩 박스를 상기 목표 바운딩 박스로 사용하기 위한 것이다.
다른 실시예에서, 상기 적어도 하나의 목표 바운딩 박스는 제1 바운딩 박스 및 제2 바운딩 박스를 포함하고, 상기 목표 결정 유닛(1304)은 상기 적어도 하나의 목표 바운딩 박스에 기반하여, 상기 일력될 이미지의 목표 검출 결과를 획득하기 위해 사용될 경우, 구체적으로, 상기 제1 바운딩 박스 및 상기 제2 바운딩 박스 사이의 협각에 기반하여, 상기 제1 바운딩 박스 및 상기 제2 바운딩 박스의 중첩 파라미터를 결정하고; 상기 제1 바운딩 박스 및 상기 제2 바운딩 박스의 중첩 파라미터에 기반하여, 상기 제1 바운딩 박스 및 상기 제2 바운딩 박스에 대응하는 목표 대상 위치를 결정하기 위한 것이다.
다른 실시예에서, 상기 목표 결정 유닛(1304)은 상기 제1 바운딩 박스 및 상기 제2 바운딩 박스 사이의 협각에 기반하여, 상기 제1 바운딩 박스 및 상기 제2 바운딩 박스의 중첩 파라미터를 결정하기 위해 사용될 경우, 구체적으로, 상기 제1 바운딩 박스 및 상기 제2 바운딩 박스 사이의 협각에 기반하여, 각도 인자를 획득하고; 상기 제1 바운딩 박스 및 상기 제2 바운딩 박스 사이의 IoU 및 상기 각도 인자에 따라, 상기 중첩 파라미터를 획득하기 위한 것이다.
다른 실시예에서, 상기 제1 바운딩 박스 및 상기 제2 바운딩 박스의 중첩 파라미터는 상기 IoU와 상기 각도 인자의 곱셈이고, 여기서, 상기 각도 인자는 상기 제1 바운딩 박스 및 상기 제2 바운딩 박스 사이의 각도가 증가함에 따라 증가한다.
다른 실시예에서, 상기 IoU가 일정한 조건을 유지하는 경우, 상기 제1 바운딩 박스 및 상기 제2 바운딩 박스의 중첩 파라미터는 상기 제1 바운딩 박스 및 상기 제2 바운딩 박스 사이의 각도가 증가함에 따라 증가한다.
다른 실시예에서, 상기 제1 바운딩 박스 및 상기 제2 바운딩 박스의 중첩 파라미터에 기반하여, 상기 제1 바운딩 박스 및 상기 제2 바운딩 박스에 대응하는 목표 대상 위치를 결정하는 단계는, 상기 제1 바운딩 박스 및 상기 제2 바운딩 박스의 중첩 파라미터가 제2 임계값보다 큰 경우, 상기 제1 바운딩 박스 및 상기 제2 바운딩 박스 중 하나를 목표 대상 위치로 사용하는 단계를 포함한다.
다른 실시예에서, 상기 제1 바운딩 박스 및 상기 제2 바운딩 박스 중 하나를 목표 대상 위치로 사용하는 단계는, 상기 제1 바운딩 박스와 상기 전경 분할 결과에 대응하는 전경 이미지 영역 사이의 중첩 파라미터 및 상기 제2 바운딩 박스와 상기 전경 이미지 영역 사이의 중첩 파라미터를 결정하는 단계; 및 상기 제1 바운딩 박스와 상기 전경 이미지 영역 사이의 중첩 파라미터 및 상기 제2 바운딩 박스와 상기 전경 이미지 영역 사이의 중첩 파라미터 중 파라미터가 큰 바운딩 박스를 목표 대상 위치로 사용하는 단계를 포함한다.
다른 실시예에서, 상기 제1 바운딩 박스 및 상기 제2 바운딩 박스의 중첩 파라미터에 기반하여, 상기 제1 바운딩 박스 및 상기 제2 바운딩 박스에 대응하는 목표 대상 위치를 결정하는 단계는, 상기 제1 바운딩 박스 및 상기 제2 바운딩 박스의 중첩 파라미터가 제2 임계값보다 작거나 같은 경우, 상기 제1 바운딩 박스 및 제2 바운딩 박스를 목표 대상 위치로 모두 사용하는 단계를 포함한다.
다른 실시예에서, 상기 입력 이미지에서 검출될 목표 대상의 종횡비는 특정값보다 크다.
도 14는 목표 검출 네트워크의 훈련 장치를 제공하고, 상기 목표 검출 네트워크는 특징 추출 네트워크, 목표 예측 네트워크 및 전경 분할 네트워크를 포함한다. 도 14에 도시된 바와 같이, 상기 장치는, 특징 추출 유닛(1401), 목표 예측 유닛(1402), 전경 분할 유닛(1403), 손실값 결정 유닛(1404) 및 파라미터 조정 유닛(1405)을 포함할 수 있다.
특징 추출 유닛(1401)은, 상기 특징 추출 네트워크를 통해 샘플 이미지에 대해 특징 추출 처리를 수행하여, 상기 샘플 이미지의 특징 데이터를 획득하기 위한 것이다.
목표 예측 유닛(1402)은, 상기 특징 데이터에 따라, 상기 목표 예측 네트워크를 ?v해 복수 개의 샘플 후보 바운딩 박스를 획득하기 위한 것이다.
전경 분할 유닛(1403)은, 상기 특징 데이터에 따라, 상기 전경 분할 네트워크를 통해 상기 샘플 이미지의 샘플 전경 분할 결과를 획득하기 위한 것이며, 여기서, 상기 샘플 전경 분할 결과는 상기 샘플 이미지의 복수 개의 픽셀 포인트에서의 각 픽셀 포인트가 전경에 속하는지 여부를 나타내는 지시 정보를 포함한다.
손실값 결정 유닛(1404)은, 상기 복수 개의 샘플 후보 바운딩 박스, 상기 샘플 전경 분할 결과 및 상기 샘플 이미지의 태그 정보에 따라, 네트워크의 손실값을 결정하기 위한 것이다.
파라미터 조정 유닛(1405)은, 상기 네트워크의 손실값에 기반하여, 상기 목표 검출 네트워크의 네트워크 파라미터에 대해 조정을 수행하기 위한 것이다.
다른 실시예에서, 상기 태그 정보는 상기 샘플 이미지에 포함된 적어도 하나의 목표 대상의 실제 바운딩 박스를 포함하고, 상기 손실값 결정 유닛(1404)은 구체적으로, 상기 복수 개의 후보 바운딩 박스에서의 각 후보 바운딩 박스에 대해, 상기 후보 바운딩 박스와 상기 샘플 이미지에 태깅된 적어도 하나의 실제 목표 바운딩 박스 중의 각 실제 목표 바운딩 박스 사이의 IoU를 결정하고; 결정된 상기 복수 개의 후보 바운딩 박스에서의 각 후보 바운딩 박스의 상기 IoU에 따라, 제1 네트워크의 손실값을 결정하기 위한 것이다.
다른 실시예에서, 상기 후보 바운딩 박스 및 상기 실제 목표 바운딩 박스 사이의 IoU는 상기 바운딩 박스와 상기 실제 목표 바운딩 박스를 포함한 외접원에 기반하여 획득된다.
다른 실시예에서, 상기 네트워크의 손실값을 결정하는 과정에서, 상기 후보 바운딩 박스의 폭에 대응하는 가중치는 상기 후보 바운딩 박스의 길이에 대응하는 가중치보다 크다.
다른 실시예에서, 상기 전경 분할 유닛(1403)은 구체적으로, 처리된 상기 특징 데이터의 크기와 샘플 이미지의 크기가 동일하도록, 상기 특징 데이터에 대해 업 샘플링 처리를 수행하고; 상기 처리된 상기 특징 데이터에 기반하여 픽셀 분할을 수행하여, 상기 샘플 이미지의 샘플 전경 분할 결과를 획득하기 위한 것이다.
다른 실시예에서, 상기 샘플 이미지에 포함된 목표 대상의 종횡비는 설정값보다 크다.
도 15는 본 발명의 적어도 하나의 실시예에 제공된 목표 검출 기기이고, 상기 기기는 메모리(1501), 프로세서(1502) 및 상기 프로세서에서 작동될 수 있는 컴퓨터 명령어를 저장하기 위한 메모리를 포함하고, 상기 프로세서는 상기 컴퓨터 명령어가 실행될 때 본 명세서의 어느 한 실시예에 따른 목표 검출 방법을 구현하기 위한 것이다. 상기 기기는 네트워크 인터페이스(1503) 및 내부 버스(1504)를 더 포함할 수 있다. 메모리(1501), 프로세서(1502) 및 네트워크 인터페이스(1503)는 내부 버스(1504)를 통해 상호간의 통신을 수행할 수 있다.
도 16은 본 발명의 적어도 하나의 실시예에 제공된 목표 검출 네트워크의 훈련 기기이고, 상기 기기는 메모리(1601), 프로세서(1602) 및 상기 프로세서에서 작동될 수 있는 컴퓨터 명령어를 저장하기 위한 메모리를 포함하고, 상기 프로세서는 상기 컴퓨터 명령어가 실행될 때 본 명세서의 어느 한 실시예에 따른 목표 검출 네트워크의 훈련 방법을 구현하기 위한 것이다. 상기 기기는 네트워크 인터페이스(1603) 및 내부 버스(1604)를 더 포함할 수 있다. 메모리(1601), 프로세서(1602) 및 네트워크 인터페이스(1603)는 내부 버스(1604)를 통해 상호간의 통신을 수행한다.
본 명세서의 적어도 하나의 실시예는 컴퓨터 프로그램이 저장된 비휘발성 컴퓨터 판독 가능 저장 매체를 더 제공하고, 상기 프로그램이 프로세서에 의해 실행될 때 본 명세서의 임의의 하나의 실시예에 서술한 목표 검출 방법 및 본 명세서에 서술한 임의의 하나의 상기의 목표 검출 네트워크의 훈련 방법 중 적어도 하나를 구현하도록 한다.
본 출원의 실시예에서, 컴퓨터 판독 가능 저장 매체는 다양한 형태일 수 있으며, 예를 들어, 상이한 예에서, 상기 기계 판독 가능 저장 매체는, 비휘발성 메모리, 플래시 메모리, 저장 드라이브(예를 들어, 하드 디스크 드라이브), 솔리드 스테이트 드라이브, 모든 유형의 저장 디스크(예를 들어, 디스크, DVD 등)일 수 있고, 또는 유사한 저장 매체, 또는 이들 조합일 수 있다. 특히, 상기 컴퓨터 판독 가능 매체는 종이 또는 프로그램을 인쇄할 수 있는 다른 적절한 매체일 수 있다. 이러한 매체를 사용하여, 이러한 프로그램은 전기적인 방식을 통해 획득(예를 들어, 광학 스캐닝)될 수 있고, 적절한 방식으로 컴파일, 해석 및 처리될 수 있으며, 다음 컴퓨터 매체에 저장될 수 있다.
이상의 내용은 본 출원의 바람직한 실시예일 뿐, 본 출원을 한정하기 위한 것이 아니며, 본 출원의 사상 및 원칙 내에서 이루어진 임의의 수정, 동등한 교체, 개선 등은, 본 출원의 보호 범위에 포함되어야 한다.

Claims (37)

  1. 목표 검출 방법으로서,
    입력 이미지의 특징 데이터를 획득하는 단계;
    상기 특징 데이터에 따라, 상기 입력 이미지의 복수 개의 후보 바운딩 박스를 결정하는 단계;
    상기 특징 데이터에 따라, 상기 입력 이미지의 전경 분할 결과를 획득하는 단계 - 전경 분할 결과는 상기 입력 이미지의 복수 개의 픽셀에서의 각 픽셀이 전경에 속하는지 여부를 나타내는 지시 정보를 포함함 - ; 및
    상기 복수 개의 후보 바운딩 박스와 상기 전경 분할 결과에 따라, 상기 입력 이미지의 목표 검출 결과를 획득하는 단계를 포함하는 것을 특징으로 하는 목표 검출 방법.
  2. 제1항에 있어서,
    상기 복수 개의 후보 바운딩 박스와 상기 전경 분할 결과에 따라, 상기 입력 이미지의 목표 검출 결과를 획득하는 단계는,
    상기 복수 개의 후보 바운딩 박스에서의 각 후보 바운딩 박스와 상기 전경 분할 결과에 대응하는 전경 이미지 영역 사이의 중첩 영역에 따라, 복수 개의 후보 바운딩 박스로부터 적어도 하나의 목표 바운딩 박스를 선택하는 단계; 및
    상기 적어도 하나의 목표 바운딩 박스에 기반하여, 상기 입력 이미지의 목표 검출 결과를 획득하는 단계를 포함하는 것을 특징으로 하는 목표 검출 방법.
  3. 제2항에 있어서,
    상기 복수 개의 후보 바운딩 박스에서의 각 후보 바운딩 박스와 상기 전경 분할 결과에 대응하는 전경 이미지 영역 사이의 중첩 영역에 따라, 복수 개의 후보 바운딩 박스로부터 적어도 하나의 목표 바운딩 박스를 선택하는 단계는,
    상기 복수 개의 후보 바운딩 박스에서의 각 후보 바운딩 박스에 대해, 상기 후보 바운딩 박스 및 대응하는 전경 이미지 영역 사이의 중첩 영역이 상기 후보 바운딩 박스에서 차지하는 비율이 제1 임계값보다 크면, 상기 후보 바운딩 박스를 상기 목표 바운딩 박스로 사용하는 단계를 포함하는 것을 특징으로 하는 목표 검출 방법.
  4. 제2항 또는 제3항에 있어서,
    상기 적어도 하나의 목표 바운딩 박스는 제1 바운딩 박스 및 제2 바운딩 박스를 포함하고, 상기 적어도 하나의 목표 바운딩 박스에 기반하여, 상기 입력 이미지의 목표 검출 결과를 획득하는 단계는,
    상기 제1 바운딩 박스 및 상기 제2 바운딩 박스 사이의 협각에 기반하여, 상기 제1 바운딩 박스 및 상기 제2 바운딩 박스의 중첩 파라미터를 결정하는 단계; 및
    상기 제1 바운딩 박스 및 상기 제2 바운딩 박스의 중첩 파라미터에 기반하여, 상기 제1 바운딩 박스 및 상기 제2 바운딩 박스에 대응하는 목표 대상 위치를 결정하는 단계를 포함하는 것을 특징으로 하는 목표 검출 방법.
  5. 제4항에 있어서,
    상기 제1 바운딩 박스 및 상기 제2 바운딩 박스 사이의 협각에 기반하여, 상기 제1 바운딩 박스 및 상기 제2 바운딩 박스의 중첩 파라미터를 결정하는 단계는,
    상기 제1 바운딩 박스 및 상기 제2 바운딩 박스 사이의 협각에 기반하여, 각도 인자를 획득하는 단계; 및
    상기 제1 바운딩 박스 및 상기 제2 바운딩 박스 사이의 교집합 대 합집합(IoU) 및 상기 각도 인자에 따라, 상기 중첩 파라미터를 획득하는 단계를 포함하는 것을 특징으로 하는 목표 검출 방법.
  6. 제5항에 있어서,
    상기 제1 바운딩 박스 및 상기 제2 바운딩 박스의 중첩 파라미터는 상기 IoU와 상기 각도 인자의 곱셈 - 상기 각도 인자는 상기 제1 바운딩 박스 및 상기 제2 바운딩 박스 사이의 각도가 증가함에 따라 증가함 - 인 것을 특징으로 하는 목표 검출 방법.
  7. 제5항 또는 제6항에 있어서,
    상기 IoU가 일정한 조건을 유지하는 경우, 상기 제1 바운딩 박스 및 상기 제2 바운딩 박스의 중첩 파라미터는 상기 제1 바운딩 박스 및 상기 제2 바운딩 박스 사이의 각도가 증가함에 따라 증가하는 것을 특징으로 하는 목표 검출 방법.
  8. 제4항 내지 제7항 중 어느 한 항에 있어서,
    상기 제1 바운딩 박스 및 상기 제2 바운딩 박스의 중첩 파라미터에 기반하여, 상기 제1 바운딩 박스 및 상기 제2 바운딩 박스에 대응하는 목표 대상 위치를 결정하는 단계는,
    상기 제1 바운딩 박스 및 상기 제2 바운딩 박스의 중첩 파라미터가 제2 임계값보다 큰 경우, 상기 제1 바운딩 박스 및 상기 제2 바운딩 박스 중 하나를 상기 목표 대상 위치로 사용하는 단계를 포함하는 것을 특징으로 하는 목표 검출 방법.
  9. 제8항에 있어서,
    상기 제1 바운딩 박스 및 상기 제2 바운딩 박스 중 하나를 상기 목표 대상 위치로 사용하는 단계는,
    상기 제1 바운딩 박스와 상기 전경 분할 결과에 대응하는 전경 이미지 영역 사이의 중첩 파라미터 및 상기 제2 바운딩 박스와 상기 전경 이미지 영역 사이의 중첩 파라미터를 결정하는 단계; 및
    상기 제1 바운딩 박스와 상기 전경 이미지 영역 사이의 중첩 파라미터 및 상기 제2 바운딩 박스와 상기 전경 이미지 영역 사이의 중첩 파라미터 중 파라미터가 큰 바운딩 박스를 상기 목표 대상 위치로 사용하는 단계를 포함하는 것을 특징으로 하는 목표 검출 방법.
  10. 제4항 내지 제9항 중 어느 한 항에 있어서,
    상기 제1 바운딩 박스 및 상기 제2 바운딩 박스의 중첩 파라미터에 기반하여, 상기 제1 바운딩 박스 및 상기 제2 바운딩 박스에 대응하는 목표 대상 위치를 결정하는 단계는,
    상기 제1 바운딩 박스 및 상기 제2 바운딩 박스의 중첩 파라미터가 제2 임계값보다 작거나 같은 경우, 상기 제1 바운딩 박스 및 상기 제2 바운딩 박스를 모두 상기 목표 대상 위치로 사용하는 단계를 포함하는 것을 특징으로 하는 목표 검출 방법.
  11. 제1항 내지 제10항 중 어느 한 항에 있어서,
    상기 입력 이미지에서 검출될 목표 대상의 종횡비가 특정값보다 큰 것을 특징으로 하는 목표 검출 방법.
  12. 목표 검출 네트워크의 훈련 방법으로서,
    상기 목표 검출 네트워크는 특징 추출 네트워크, 목표 예측 네트워크 및 전경 분할 네트워크를 포함하며, 상기 목표 검출 네트워크의 훈련 방법은,
    상기 특징 추출 네트워크를 통해 샘플 이미지에 대해 특징 추출 처리를 수행하여, 상기 샘플 이미지의 특징 데이터를 획득하는 단계;
    상기 특징 데이터에 따라, 상기 목표 예측 네트워크를 ?v해 복수 개의 샘플 후보 바운딩 박스를 획득하는 단계;
    상기 특징 데이터에 따라, 상기 전경 분할 네트워크를 통해 상기 샘플 이미지의 샘플 전경 분할 결과를 획득하는 단계 - 상기 샘플 전경 분할 결과는 상기 샘플 이미지의 복수 개의 픽셀 포인트에서의 각 픽셀 포인트가 전경에 속하는지 여부를 나타내는 지시 정보를 포함함 - ;
    상기 복수 개의 샘플 후보 바운딩 박스, 상기 샘플 전경 분할 결과 및 상기 샘플 이미지의 태그 정보에 따라, 네트워크의 손실값을 결정하는 단계; 및
    상기 네트워크의 손실값에 기반하여, 상기 목표 검출 네트워크의 네트워크 파라미터에 대해 조정을 수행하는 단계를 포함하는 것을 특징으로 하는 목표 검출 네트워크의 훈련 방법.
  13. 제12항에 있어서,
    상기 태그 정보는 상기 샘플 이미지에 포함된 적어도 하나의 목표 대상의 실제 바운딩 박스를 포함하고, 상기 복수 개의 샘플 후보 바운딩 박스 및 상기 샘플 전경 이미지 영역 및 상기 샘플 이미지의 태그 정보에 따라, 네트워크의 손실값을 결정하는 단계는,
    상기 복수 개의 후보 바운딩 박스에서의 각 후보 바운딩 박스에 대해, 상기 후보 바운딩 박스와 상기 샘플 이미지에 태깅된 적어도 하나의 실제 목표 바운딩 박스 중의 각 실제 목표 바운딩 박스 사이의 IoU를 결정하는 단계; 및
    결정된 상기 복수 개의 후보 바운딩 박스에서의 각 후보 바운딩 박스의 상기 IoU에 따라, 제1 네트워크의 손실값을 결정하는 단계를 포함하는 것을 특징으로 하는 목표 검출 네트워크의 훈련 방법.
  14. 제13항에 있어서,
    상기 후보 바운딩 박스 및 상기 실제 목표 바운딩 박스 사이의 IoU는 상기 바운딩 박스와 상기 실제 목표 바운딩 박스를 포함한 외접원에 기반하여 획득되는 것을 특징으로 하는 목표 검출 네트워크의 훈련 방법.
  15. 제12항 내지 제14항 중 어느 한 항에 있어서,
    상기 네트워크의 손실값을 결정하는 과정에서, 상기 후보 바운딩 박스의 폭에 대응하는 가중치는 상기 후보 바운딩 박스의 길이에 대응하는 가중치보다 큰 것을 특징으로 하는 목표 검출 네트워크의 훈련 방법.
  16. 제12항 내지 제15항 중 어느 한 항에 있어서,
    상기 특징 데이터에 따라, 상기 전경 분할 네트워크를 통해 상기 샘플 이미지의 샘플 전경 분할 결과를 획득하는 단계는,
    처리된 상기 특징 데이터의 크기와 샘플 이미지의 크기가 동일하도록, 상기 특징 데이터에 대해 업 샘플링 처리를 수행하는 단계; 및
    상기 처리된 상기 특징 데이터에 기반하여 픽셀 분할을 수행하여, 상기 샘플 이미지의 샘플 전경 분할 결과를 획득하는 단계를 포함하는 것을 특징으로 하는 목표 검출 네트워크의 훈련 방법.
  17. 제12항 내지 제16항 중 어느 한 항에 있어서,
    상기 샘플 이미지에 포함된 목표 대상의 종횡비는 설정값보다 큰 것을 특징으로 하는 목표 검출 네트워크의 훈련 방법.
  18. 목표 검출 장치로서,
    입력 이미지의 특징 데이터를 획득하기 위한 특징 추출 유닛;
    상기 특징 데이터에 따라, 상기 입력 이미지의 복수 개의 후보 바운딩 박스를 결정하기 위한 목표 예측 유닛;
    상기 특징 데이터에 따라, 상기 입력 이미지의 전경 분할 결과를 획득하기 위한 전경 분할 유닛 - 전경 분할 결과는 상기 입력 이미지의 복수 개의 픽셀에서의 각 픽셀이 전경에 속하는지 여부를 나타내는 지시 정보를 포함함 - ; 및
    상기 복수 개의 후보 바운딩 박스와 상기 전경 분할 결과에 따라, 상기 입력 이미지의 목표 검출 결과를 획득하기 위한 목표 결정 유닛을 포함하는 것을 특징으로 하는 목표 검출 장치.
  19. 제18항에 있어서,
    상기 목표 결정 유닛은 구체적으로,
    상기 복수 개의 후보 바운딩 박스에서의 각 후보 바운딩 박스와 상기 전경 분할 결과에 대응하는 전경 이미지 영역 사이의 중첩 영역에 따라, 복수 개의 후보 바운딩 박스로부터 적어도 하나의 목표 바운딩 박스를 선택하고;
    상기 적어도 하나의 목표 바운딩 박스에 기반하여, 상기 입력 이미지의 목표 검출 결과를 획득하기 위한 것임을 특징으로 하는 목표 검출 장치.
  20. 제19항에 있어서,
    상기 목표 결정 유닛은 상기 복수 개의 후보 바운딩 박스에서의 각 후보 바운딩 박스와 상기 전경 분할 결과에 대응하는 전경 이미지 영역 사이의 중첩 영역에 따라, 복수 개의 후보 바운딩 박스로부터 적어도 하나의 목표 바운딩 박스를 선택하기 위해 사용될 경우, 구체적으로,
    상기 복수 개의 후보 바운딩 박스에서의 각 후보 바운딩 박스에 대해, 상기 후보 바운딩 박스 및 대응하는 전경 이미지 영역 사이의 중첩 영역이 상기 후보 바운딩 박스에서 차지하는 비율이 제1 임계값보다 크면, 상기 후보 바운딩 박스를 상기 목표 바운딩 박스로 사용하기 위한 것임을 특징으로 하는 목표 검출 장치.
  21. 제19항 또는 제20항에 있어서,
    상기 적어도 하나의 목표 바운딩 박스는 제1 바운딩 박스 및 제2 바운딩 박스를 포함하고, 상기 목표 결정 유닛은 상기 적어도 하나의 목표 바운딩 박스에 기반하여, 상기 입력 이미지의 목표 검출 결과를 획득하기 위해 사용될 경우, 구체적으로,
    상기 제1 바운딩 박스 및 상기 제2 바운딩 박스 사이의 협각에 기반하여, 상기 제1 바운딩 박스 및 상기 제2 바운딩 박스의 중첩 파라미터를 결정하고;
    상기 제1 바운딩 박스 및 상기 제2 바운딩 박스의 중첩 파라미터에 기반하여, 상기 제1 바운딩 박스 및 상기 제2 바운딩 박스에 대응하는 목표 대상 위치를 결정하기 위한 것임을 특징으로 하는 목표 검출 장치.
  22. 제21항에 있어서,
    상기 목표 결정 유닛은 상기 제1 바운딩 박스 및 상기 제2 바운딩 박스 사이의 협각에 기반하여, 상기 제1 바운딩 박스 및 상기 제2 바운딩 박스의 중첩 파라미터를 결정하기 위해 사용될 경우, 구체적으로,
    상기 제1 바운딩 박스 및 상기 제2 바운딩 박스 사이의 협각에 기반하여, 각도 인자를 획득하고;
    상기 제1 바운딩 박스 및 상기 제2 바운딩 박스 사이의 IoU 및 상기 각도 인자에 따라, 상기 중첩 파라미터를 획득하기 위한 것임을 특징으로 하는 목표 검출 장치.
  23. 제22항에 있어서,
    상기 제1 바운딩 박스 및 상기 제2 바운딩 박스의 중첩 파라미터는 상기 IoU와 상기 각도 인자의 곱셈 - 상기 제1 바운딩 박스 및 상기 제2 바운딩 박스 사이의 각도가 증가함에 따라 상기 각도 인자도 증가함 - 인 것을 특징으로 하는 목표 검출 장치.
  24. 제22항 또는 제23항에 있어서,
    상기 IoU가 일정한 조건을 유지하는 경우, 상기 제1 바운딩 박스 및 상기 제2 바운딩 박스의 중첩 파라미터는 상기 제1 바운딩 박스 및 상기 제2 바운딩 박스 사이의 각도가 증가함에 따라 증가하는 것을 특징으로 하는 목표 검출 장치.
  25. 제21항 내지 제24항 중 어느 한 항에 있어서,
    상기 제1 바운딩 박스 및 상기 제2 바운딩 박스의 중첩 파라미터에 기반하여, 상기 제1 바운딩 박스 및 상기 제2 바운딩 박스에 대응하는 목표 대상 위치를 결정하는 것은,
    상기 제1 바운딩 박스 및 상기 제2 바운딩 박스의 중첩 파라미터가 제2 임계값보다 큰 경우, 상기 제1 바운딩 박스 및 상기 제2 바운딩 박스 중 하나를 상기 목표 대상 위치로 사용하는 것을 포함하는 것을 특징으로 하는 목표 검출 장치.
  26. 제25항에 있어서,
    상기 제1 바운딩 박스 및 상기 제2 바운딩 박스 중 하나를 상기 목표 대상 위치로 사용하는 것은,
    상기 제1 바운딩 박스와 상기 전경 분할 결과에 대응하는 전경 이미지 영역 사이의 중첩 파라미터 및 상기 제2 바운딩 박스와 상기 전경 이미지 영역 사이의 중첩 파라미터를 결정하는 것; 및
    상기 제1 바운딩 박스와 상기 전경 이미지 영역 사이의 중첩 파라미터 및 상기 제2 바운딩 박스와 상기 전경 이미지 영역 사이의 중첩 파라미터 중 파라미터가 큰 바운딩 박스를 상기 목표 대상 위치로 사용하는 것을 포함하는 것을 특징으로 하는 목표 검출 장치.
  27. 제21항 내지 제26항 중 어느 한 항에 있어서,
    상기 제1 바운딩 박스 및 상기 제2 바운딩 박스의 중첩 파라미터에 기반하여, 상기 제1 바운딩 박스 및 상기 제2 바운딩 박스에 대응하는 목표 대상 위치를 결정하는 것은,
    상기 제1 바운딩 박스 및 상기 제2 바운딩 박스의 중첩 파라미터가 제2 임계값보다 작거나 같은 경우, 상기 제1 바운딩 박스 및 상기 제2 바운딩 박스를 모두 상기 목표 대상 위치로 사용하는 것을 포함하는 것을 특징으로 하는 목표 검출 장치.
  28. 제18항 내지 제27항 중 어느 한 항에 있어서,
    상기 입력 이미지에서 검출될 목표 대상의 종횡비가 특정값보다 큰 것을 특징으로 하는 목표 검출 장치.
  29. 목표 검출 네트워크의 훈련 장치로서,
    상기 목표 검출 네트워크는 특징 추출 네트워크, 목표 예측 네트워크 및 전경 분할 네트워크를 포함하며, 상기 목표 검출 네트워크의 훈련 장치는,
    상기 특징 추출 네트워크를 통해 샘플 이미지에 대해 특징 추출 처리를 수행하여, 상기 샘플 이미지의 특징 데이터를 획득하기 위한 특징 추출 유닛;
    상기 특징 데이터에 따라, 상기 목표 예측 네트워크를 ?v해 복수 개의 샘플 후보 바운딩 박스를 획득하기 위한 목표 예측 유닛;
    상기 특징 데이터에 따라, 상기 전경 분할 네트워크를 통해 상기 샘플 이미지의 샘플 전경 분할 결과를 획득하기 위한 전경 분할 유닛 - 상기 샘플 전경 분할 결과는 상기 샘플 이미지의 복수 개의 픽셀 포인트에서의 각 픽셀 포인트가 전경에 속하는지 여부를 나타내는 지시 정보를 포함함 - ;
    상기 복수 개의 샘플 후보 바운딩 박스, 상기 샘플 전경 분할 결과 및 상기 샘플 이미지의 태그 정보에 따라, 네트워크의 손실값을 결정하기 위한 손실값 결정 유닛; 및
    상기 네트워크의 손실값에 기반하여, 상기 목표 검출 네트워크의 네트워크 파라미터에 대해 조정을 수행하기 위한 파라미터 조정 유닛을 포함하는 것을 특징으로 하는 목표 검출 네트워크의 훈련 장치.
  30. 제29항에 있어서,
    상기 태그 정보는 상기 샘플 이미지에 포함된 적어도 하나의 목표 대상의 실제 바운딩 박스를 포함하고, 상기 손실값 결정 유닛은 구체적으로,
    상기 복수 개의 후보 바운딩 박스에서의 각 후보 바운딩 박스에 대해, 상기 후보 바운딩 박스와 상기 샘플 이미지에 태깅된 적어도 하나의 실제 목표 바운딩 박스 중의 각 실제 목표 바운딩 박스 사이의 IoU를 결정하고;
    결정된 상기 복수 개의 후보 바운딩 박스에서의 각 후보 바운딩 박스의 상기 IoU에 따라, 제1 네트워크의 손실값을 결정하기 위한 것임을 특징으로 하는 목표 검출 네트워크의 훈련 장치.
  31. 제30항에 있어서,
    상기 후보 바운딩 박스 및 상기 실제 목표 바운딩 박스 사이의 IoU는 상기 바운딩 박스와 상기 실제 목표 바운딩 박스를 포함한 외접원에 기반하여 획득되는 것을 특징으로 하는 목표 검출 네트워크의 훈련 장치.
  32. 제29항 내지 제31항 중 어느 한 항에 있어서,
    상기 네트워크의 손실값을 결정하는 과정에서, 상기 후보 바운딩 박스의 폭에 대응하는 가중치는 상기 후보 바운딩 박스의 길이에 대응하는 가중치보다 큰 것을 특징으로 하는 목표 검출 네트워크의 훈련 장치.
  33. 제29항 내지 제32항 중 어느 한 항에 있어서,
    상기 전경 분할 유닛은 구체적으로,
    처리된 상기 특징 데이터의 크기와 샘플 이미지의 크기가 동일하도록, 상기 특징 데이터에 대해 업 샘플링 처리를 수행하고;
    상기 처리된 상기 특징 데이터에 기반하여 픽셀 분할을 수행하여, 상기 샘플 이미지의 샘플 전경 분할 결과를 획득하기 위한 것임을 특징으로 하는 목표 검출 네트워크의 훈련 장치.
  34. 제29항 내지 제33항 중 어느 한 항에 있어서,
    상기 샘플 이미지에 포함된 목표 대상의 종횡비는 설정값보다 큰 것을 특징으로 하는 목표 검출 네트워크의 훈련 장치.
  35. 목표 검출 기기로서,
    상기 기기는 메모리, 프로세서 및 상기 프로세서에서 작동될 수 있는 컴퓨터 명령어를 저장하기 위한 메모리를 포함하고, 상기 프로세서는 상기 컴퓨터 명령어가 실행될 때 제1항 내지 제11항 중 어느 한 항에 따른 방법을 구현하는 것을 특징으로 하는 목표 검출 기기.
  36. 목표 검출 네트워크의 훈련 기기로서,
    상기 기기는 메모리, 프로세서 및 상기 프로세서에서 작동될 수 있는 컴퓨터 명령어를 저장하기 위한 메모리를 포함하고, 상기 프로세서는 상기 컴퓨터 명령어가 실행될 때 제12항 내지 제17항 중 어느 한 항에 따른 방법을 구현하는 것을 특징으로 하는 목표 검출 네트워크의 훈련 기기.
  37. 컴퓨터 프로그램이 저장된 비휘발성 컴퓨터 판독 가능 저장 매체로서,
    상기 프로그램이 프로세서에 의해 실행될 때, 상기 프로세서로 하여금 제1항 내지 제11항 중 어느 한 항에 따른 방법, 또는 제12항 내지 제17항 중 어느 한 항에 따른 방법을 구현하도록 하는 것을 특징으로 하는 비휘발성 컴퓨터 판독 가능 저장 매체.
KR1020207030752A 2019-06-26 2019-12-25 목표 검출 및 목표 검출 네트워크의 훈련 KR102414452B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910563005.8 2019-06-26
CN201910563005.8A CN110298298B (zh) 2019-06-26 2019-06-26 目标检测及目标检测网络的训练方法、装置及设备
PCT/CN2019/128383 WO2020258793A1 (zh) 2019-06-26 2019-12-25 目标检测及目标检测网络的训练

Publications (2)

Publication Number Publication Date
KR20210002104A true KR20210002104A (ko) 2021-01-06
KR102414452B1 KR102414452B1 (ko) 2022-06-29

Family

ID=68028948

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020207030752A KR102414452B1 (ko) 2019-06-26 2019-12-25 목표 검출 및 목표 검출 네트워크의 훈련

Country Status (7)

Country Link
US (1) US20210056708A1 (ko)
JP (1) JP7096365B2 (ko)
KR (1) KR102414452B1 (ko)
CN (1) CN110298298B (ko)
SG (1) SG11202010475SA (ko)
TW (1) TWI762860B (ko)
WO (1) WO2020258793A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102378887B1 (ko) * 2021-02-15 2022-03-25 인하대학교 산학협력단 객체 탐지에서의 둘레기반 IoU 손실함수를 통한 효율적인 바운딩 박스 회귀 학습 방법 및 장치
WO2023128323A1 (ko) * 2021-12-28 2023-07-06 삼성전자 주식회사 목표 객체를 검출하는 전자 장치 및 방법

Families Citing this family (61)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110298298B (zh) * 2019-06-26 2022-03-08 北京市商汤科技开发有限公司 目标检测及目标检测网络的训练方法、装置及设备
CN110781819A (zh) * 2019-10-25 2020-02-11 浪潮电子信息产业股份有限公司 一种图像目标检测方法、系统、电子设备及存储介质
CN110866928B (zh) * 2019-10-28 2021-07-16 中科智云科技有限公司 基于神经网络的目标边界分割及背景噪声抑制方法及设备
CN112784638B (zh) * 2019-11-07 2023-12-08 北京京东乾石科技有限公司 训练样本获取方法和装置、行人检测方法和装置
CN110930420B (zh) * 2019-11-11 2022-09-30 中科智云科技有限公司 基于神经网络的稠密目标背景噪声抑制方法及设备
CN110880182B (zh) * 2019-11-18 2022-08-26 东声(苏州)智能科技有限公司 图像分割模型训练方法、图像分割方法、装置及电子设备
US11200455B2 (en) * 2019-11-22 2021-12-14 International Business Machines Corporation Generating training data for object detection
CN111027602B (zh) * 2019-11-25 2023-04-07 清华大学深圳国际研究生院 一种多级结构目标检测方法及系统
CN112886996A (zh) * 2019-11-29 2021-06-01 北京三星通信技术研究有限公司 信号接收方法、用户设备、电子设备及计算机存储介质
CN111079638A (zh) * 2019-12-13 2020-04-28 河北爱尔工业互联网科技有限公司 基于卷积神经网络的目标检测模型训练方法、设备和介质
CN111179300A (zh) * 2019-12-16 2020-05-19 新奇点企业管理集团有限公司 障碍物检测的方法、装置、系统、设备以及存储介质
CN113051969A (zh) * 2019-12-26 2021-06-29 深圳市超捷通讯有限公司 物件识别模型训练方法及车载装置
CN111105411B (zh) * 2019-12-30 2023-06-23 创新奇智(青岛)科技有限公司 一种磁瓦表面缺陷检测方法
SG10201913754XA (en) * 2019-12-30 2020-12-30 Sensetime Int Pte Ltd Image processing method and apparatus, electronic device, and storage medium
CN111241947B (zh) * 2019-12-31 2023-07-18 深圳奇迹智慧网络有限公司 目标检测模型的训练方法、装置、存储介质和计算机设备
CN111079707B (zh) * 2019-12-31 2023-06-13 深圳云天励飞技术有限公司 人脸检测方法及相关装置
CN111260666B (zh) * 2020-01-19 2022-05-24 上海商汤临港智能科技有限公司 图像处理方法及装置、电子设备、计算机可读存储介质
CN111508019A (zh) * 2020-03-11 2020-08-07 上海商汤智能科技有限公司 目标检测方法及其模型的训练方法及相关装置、设备
CN111353464B (zh) * 2020-03-12 2023-07-21 北京迈格威科技有限公司 一种物体检测模型训练、物体检测方法及装置
US11847771B2 (en) * 2020-05-01 2023-12-19 Samsung Electronics Co., Ltd. Systems and methods for quantitative evaluation of optical map quality and for data augmentation automation
CN111582265A (zh) * 2020-05-14 2020-08-25 上海商汤智能科技有限公司 一种文本检测方法及装置、电子设备和存储介质
CN111738112B (zh) * 2020-06-10 2023-07-07 杭州电子科技大学 基于深度神经网络和自注意力机制的遥感船舶图像目标检测方法
CN111797704B (zh) * 2020-06-11 2023-05-02 同济大学 一种基于相关物体感知的动作识别方法
CN111797993B (zh) * 2020-06-16 2024-02-27 东软睿驰汽车技术(沈阳)有限公司 深度学习模型的评价方法、装置、电子设备及存储介质
CN112001247A (zh) * 2020-07-17 2020-11-27 浙江大华技术股份有限公司 多目标检测方法、设备及存储装置
CN111967595B (zh) * 2020-08-17 2023-06-06 成都数之联科技股份有限公司 候选框标注方法及系统及模型训练方法及目标检测方法
US11657373B2 (en) * 2020-08-21 2023-05-23 Accenture Global Solutions Limited System and method for identifying structural asset features and damage
CN112508848B (zh) * 2020-11-06 2024-03-26 上海亨临光电科技有限公司 一种基于深度学习多任务端到端的遥感图像船舶旋转目标检测方法
KR20220068357A (ko) * 2020-11-19 2022-05-26 한국전자기술연구원 딥러닝 객체 검출 처리 장치
CN112597837B (zh) * 2020-12-11 2024-05-28 北京百度网讯科技有限公司 图像检测方法、装置、设备、存储介质和计算机程序产品
CN112906732B (zh) * 2020-12-31 2023-12-15 杭州旷云金智科技有限公司 目标检测方法、装置、电子设备及存储介质
CN112862761B (zh) * 2021-01-20 2023-01-17 清华大学深圳国际研究生院 一种基于深度神经网络的脑瘤mri图像分割方法及系统
CN112966587B (zh) * 2021-03-02 2022-12-20 北京百度网讯科技有限公司 目标检测模型的训练方法、目标检测方法及相关设备
CN112967322B (zh) * 2021-04-07 2023-04-18 深圳创维-Rgb电子有限公司 运动目标检测模型建立方法和运动目标检测方法
CN113095257A (zh) * 2021-04-20 2021-07-09 上海商汤智能科技有限公司 异常行为检测方法、装置、设备及存储介质
CN113160201B (zh) * 2021-04-30 2024-04-12 聚时科技(上海)有限公司 基于极坐标的环状边界框的目标检测方法
CN112990204B (zh) * 2021-05-11 2021-08-24 北京世纪好未来教育科技有限公司 目标检测方法、装置、电子设备及存储介质
CN113706450A (zh) * 2021-05-18 2021-11-26 腾讯科技(深圳)有限公司 图像配准方法、装置、设备及可读存储介质
CN113313697B (zh) * 2021-06-08 2023-04-07 青岛商汤科技有限公司 图像分割和分类方法及其模型训练方法、相关装置及介质
CN113284185B (zh) * 2021-06-16 2022-03-15 河北工业大学 用于遥感目标检测的旋转目标检测方法
CN113536986B (zh) * 2021-06-29 2024-06-14 南京逸智网络空间技术创新研究院有限公司 一种基于代表特征的遥感图像中的密集目标检测方法
CN113627421A (zh) * 2021-06-30 2021-11-09 华为技术有限公司 一种图像处理方法、模型的训练方法以及相关设备
CN113505256B (zh) * 2021-07-02 2022-09-02 北京达佳互联信息技术有限公司 特征提取网络训练方法、图像处理方法及装置
CN113610764A (zh) * 2021-07-12 2021-11-05 深圳市银星智能科技股份有限公司 地毯识别方法、装置、智能设备及存储介质
CN113361662B (zh) * 2021-07-22 2023-08-29 全图通位置网络有限公司 一种城市轨道交通遥感图像数据的处理系统及方法
CN113657482A (zh) * 2021-08-14 2021-11-16 北京百度网讯科技有限公司 模型训练方法、目标检测方法、装置、设备以及存储介质
CN113658199B (zh) * 2021-09-02 2023-11-03 中国矿业大学 基于回归修正的染色体实例分割网络
CN113469302A (zh) * 2021-09-06 2021-10-01 南昌工学院 一种视频图像的多圆形目标识别方法和系统
US11900643B2 (en) * 2021-09-17 2024-02-13 Himax Technologies Limited Object detection method and object detection system
CN113850783B (zh) * 2021-09-27 2022-08-30 清华大学深圳国际研究生院 一种海面船舶检测方法及系统
CN114037865B (zh) * 2021-11-02 2023-08-22 北京百度网讯科技有限公司 图像处理方法、装置、设备、存储介质和程序产品
CN114359561A (zh) * 2022-01-10 2022-04-15 北京百度网讯科技有限公司 一种目标检测方法及目标检测模型的训练方法、装置
WO2023178542A1 (en) * 2022-03-23 2023-09-28 Robert Bosch Gmbh Image processing apparatus and method
CN114492210B (zh) * 2022-04-13 2022-07-19 潍坊绘圆地理信息有限公司 一种高光谱卫星星载数据智能解译系统及其实现方法
CN114463603B (zh) * 2022-04-14 2022-08-23 浙江啄云智能科技有限公司 图像检测模型的训练方法、装置、电子设备及存储介质
CN114842510A (zh) * 2022-05-27 2022-08-02 澜途集思生态科技集团有限公司 基于ScratchDet算法的生态生物识别方法
CN117036670B (zh) * 2022-10-20 2024-06-07 腾讯科技(深圳)有限公司 质量检测模型的训练方法、装置、设备、介质及程序产品
CN115496917B (zh) * 2022-11-01 2023-09-26 中南大学 一种GPR B-Scan图像中的多目标检测方法及装置
CN116152487A (zh) * 2023-04-17 2023-05-23 广东广物互联网科技有限公司 一种基于深度IoU网络的目标检测方法、装置、设备及介质
CN116721093B (zh) * 2023-08-03 2023-10-31 克伦斯(天津)轨道交通技术有限公司 基于神经网络的地铁轨道障碍物检测方法和系统
CN117854211B (zh) * 2024-03-07 2024-05-28 南京奥看信息科技有限公司 一种基于智能视觉的目标对象识别方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140134505A (ko) * 2013-05-14 2014-11-24 경성대학교 산학협력단 영상 객체 추적 방법
KR20170039113A (ko) * 2017-03-28 2017-04-10 (주)이더블유비엠 영상처리방법 및 장치, 그리고 이를 이용한 제스처 인식 인터페이스 방법 및 장치
KR20180033037A (ko) * 2016-09-23 2018-04-02 삼성전자주식회사 사물 감지 장치 및 방법
KR20180107988A (ko) * 2017-03-23 2018-10-04 한국전자통신연구원 객체 탐지 장치 및 방법

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9665767B2 (en) * 2011-02-28 2017-05-30 Aic Innovations Group, Inc. Method and apparatus for pattern tracking
CN103530613B (zh) * 2013-10-15 2017-02-01 易视腾科技股份有限公司 一种基于单目视频序列的目标人手势交互方法
CN105046721B (zh) * 2015-08-03 2018-08-17 南昌大学 基于Grabcut及LBP跟踪质心矫正模型的Camshift算法
CN107872644B (zh) * 2016-09-23 2020-10-09 亿阳信通股份有限公司 视频监控方法及装置
CN106898005B (zh) * 2017-01-04 2020-07-17 努比亚技术有限公司 一种实现交互式图像分割的方法、装置及终端
CN107369158B (zh) * 2017-06-13 2020-11-13 南京邮电大学 基于rgb-d图像的室内场景布局估计及目标区域提取方法
JP2019061505A (ja) 2017-09-27 2019-04-18 株式会社デンソー 情報処理システム、制御システム、及び学習方法
US10037610B1 (en) 2017-10-03 2018-07-31 StradVision, Inc. Method for tracking and segmenting a target object in an image using Markov Chain, and device using the same
CN107862262A (zh) * 2017-10-27 2018-03-30 中国航空无线电电子研究所 一种适用于高空侦察的快速可见光图像舰船检测方法
CN108513131B (zh) * 2018-03-28 2020-10-20 浙江工业大学 一种自由视点视频深度图感兴趣区域编码方法
CN108717693A (zh) * 2018-04-24 2018-10-30 浙江工业大学 一种基于rpn的视盘定位方法
CN109214353B (zh) * 2018-09-27 2021-11-23 云南大学 一种基于剪枝模型的人脸图像快速检测训练方法和装置
CN110298298B (zh) * 2019-06-26 2022-03-08 北京市商汤科技开发有限公司 目标检测及目标检测网络的训练方法、装置及设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140134505A (ko) * 2013-05-14 2014-11-24 경성대학교 산학협력단 영상 객체 추적 방법
KR20180033037A (ko) * 2016-09-23 2018-04-02 삼성전자주식회사 사물 감지 장치 및 방법
KR20180107988A (ko) * 2017-03-23 2018-10-04 한국전자통신연구원 객체 탐지 장치 및 방법
KR20170039113A (ko) * 2017-03-28 2017-04-10 (주)이더블유비엠 영상처리방법 및 장치, 그리고 이를 이용한 제스처 인식 인터페이스 방법 및 장치

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102378887B1 (ko) * 2021-02-15 2022-03-25 인하대학교 산학협력단 객체 탐지에서의 둘레기반 IoU 손실함수를 통한 효율적인 바운딩 박스 회귀 학습 방법 및 장치
WO2023128323A1 (ko) * 2021-12-28 2023-07-06 삼성전자 주식회사 목표 객체를 검출하는 전자 장치 및 방법

Also Published As

Publication number Publication date
TWI762860B (zh) 2022-05-01
SG11202010475SA (en) 2021-01-28
US20210056708A1 (en) 2021-02-25
WO2020258793A1 (zh) 2020-12-30
JP2021532435A (ja) 2021-11-25
CN110298298A (zh) 2019-10-01
JP7096365B2 (ja) 2022-07-05
TW202101377A (zh) 2021-01-01
CN110298298B (zh) 2022-03-08
KR102414452B1 (ko) 2022-06-29

Similar Documents

Publication Publication Date Title
KR102414452B1 (ko) 목표 검출 및 목표 검출 네트워크의 훈련
KR102326256B1 (ko) 고정밀도 이미지를 분석하는 딥러닝 네트워크의 학습에 이용하기 위한 트레이닝 이미지를 오토 라벨링하기 위한 방법 및 이를 이용한 오토 라벨링 장치
CN109902677B (zh) 一种基于深度学习的车辆检测方法
CN108230329B (zh) 基于多尺度卷积神经网络的语义分割方法
US10509987B1 (en) Learning method and learning device for object detector based on reconfigurable network for optimizing customers&#39; requirements such as key performance index using target object estimating network and target object merging network, and testing method and testing device using the same
CN109598241B (zh) 基于Faster R-CNN的卫星图像海上舰船识别方法
US10423860B1 (en) Learning method and learning device for object detector based on CNN to be used for multi-camera or surround view monitoring using image concatenation and target object merging network, and testing method and testing device using the same
CN113658257B (zh) 一种无人设备定位方法、装置、设备及存储介质
CN112800955A (zh) 基于加权双向特征金字塔的遥感影像旋转目标检测方法及系统
CN111914804A (zh) 多角度旋转遥感图像小目标检测方法
CN116645592B (zh) 一种基于图像处理的裂缝检测方法和存储介质
CN114332633B (zh) 雷达图像目标检测识别方法、设备和存储介质
CN113505634A (zh) 一种双流解码跨任务交互网络的光学遥感图像显著目标检测方法
Farahnakian et al. Deep convolutional neural network-based fusion of rgb and ir images in marine environment
CN115100616A (zh) 点云目标检测方法、装置、电子设备及存储介质
CN114359709A (zh) 一种针对遥感图像的目标检测方法及装置
CN113610178A (zh) 一种基于视频监控图像的内河船舶目标检测方法和装置
CN113409325B (zh) 基于精细分割的大幅面sar影像舰船目标检测识别方法
CN116129234A (zh) 一种基于注意力的4d毫米波雷达与视觉的融合方法
CN113762204B (zh) 多方向遥感目标检测方法、装置及计算机设备
CN115035429A (zh) 一种基于复合主干网络和多预测头的航拍目标检测方法
CN115019107A (zh) 基于风格迁移的声呐仿真图像生成方法、系统及介质
CN115457120A (zh) 一种gps拒止条件下的绝对位置感知方法与系统
US11954835B2 (en) Methods, devices, apparatuses, and media for image fusion utilizing images and LiDAR point clouds
CN115424022B (zh) 输电走廊地面点云分割方法、装置和计算机设备

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right