KR102558704B1 - 목표 검출 방법 및 장치, 컴퓨터 시스템 및 판독 가능 저장 매체 - Google Patents

목표 검출 방법 및 장치, 컴퓨터 시스템 및 판독 가능 저장 매체 Download PDF

Info

Publication number
KR102558704B1
KR102558704B1 KR1020210028050A KR20210028050A KR102558704B1 KR 102558704 B1 KR102558704 B1 KR 102558704B1 KR 1020210028050 A KR1020210028050 A KR 1020210028050A KR 20210028050 A KR20210028050 A KR 20210028050A KR 102558704 B1 KR102558704 B1 KR 102558704B1
Authority
KR
South Korea
Prior art keywords
target
training
picture
target detection
detection
Prior art date
Application number
KR1020210028050A
Other languages
English (en)
Other versions
KR20220027739A (ko
Inventor
펑하오 자오
하이빈 장
수펑 리
언 스
융캉 셰
Original Assignee
베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. filed Critical 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Publication of KR20220027739A publication Critical patent/KR20220027739A/ko
Application granted granted Critical
Publication of KR102558704B1 publication Critical patent/KR102558704B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0004Industrial image inspection
    • G06T7/0008Industrial image inspection checking presence/absence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4084Scaling of whole images or parts thereof, e.g. expanding or contracting in the transform domain, e.g. fast Fourier transform [FFT] domain scaling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/52Scale-space analysis, e.g. wavelet analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/13Satellite images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/66Trinkets, e.g. shirt buttons or jewellery items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/11Technique with transformation invariance effect

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Remote Sensing (AREA)
  • Astronomy & Astrophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

본 공개의 실시예는 컴퓨터 비전 및 이미지 처리 분야에 관련된, 목표 검출 방법 및 장치, 컴퓨터 시스템 및 판독 가능 저장 매체를 공개한다. 상기 목표 검출 방법은, 제1 트레이닝 데이터 세트 중 각 트레이닝 픽처 상의 목표 점유율을 통계함으로써, 제1 트레이닝 데이터 세트 중의 적어도 하나의 전형적인 목표 점유율을 결정하는 단계; 적어도 하나의 전형적인 목표 점유율을 기반으로 적어도 하나의 픽처 스케일링 사이즈를 결정하고, 적어도 하나의 픽처 스케일링 사이즈에 따라 제1 트레이닝 데이터 세트 중의 각 트레이닝 픽처에 대해 스케일링을 진행하는 단계; 스케일링된 각 트레이닝 픽처에 대해 슬라이싱을 진행하여, 제2 트레이닝 데이터 세트를 얻는 단계; 제2 트레이닝 데이터 세트를 이용하여 목표 검출 모델에 대해 트레이닝하는 단계; 및 트레이닝된 목표 검출 모델을 이용하여 검출 대상 픽처에 대해 목표 검출을 진행하는 단계를 포함한다. 본 공개의 실시예의 목표 검출 방법은 수동 개입없이 매우 작은 목표에 대한 검출 임무를 완성할 수 있다.

Description

목표 검출 방법 및 장치, 컴퓨터 시스템 및 판독 가능 저장 매체{OBJECT DETECTION METHOD AND APPARATUS, COMPUTER SYSTEM, AND READABLE STORAGE MEDIUM}
본 공개는 컴퓨터 비전과 이미지 처리 분야에 관한 것으로, 더욱 구체적으로는 목표 검출 방법 및 장치, 컴퓨터 시스템 및 판독 가능 저장 매체에 관한 것이다.
최근, 목표 검출로 대표되는 컴퓨터 비전 기술은 놀라운 발전을 이루었다. 목표 검출 기술의 응용은 더 많은 산업에서 더 나은 체험, 더 높은 효율을 가져왔고, 동시에 비용도 절감하였다. 예를 들면, 자동차의 자율 주행 분야는 목표 검출 기술 분야를 이용하여 보행자, 차량, 장애물을 검출하므로, 자동차 주행의 안전성 및 편리성을 향상시킬 수 있다. 보안 모니터링 분야는 목표 검출 기술을 이용하여 특정인물 또는 물체의 출현, 이동 등 정보를 모니터링하며, 의료 진단 분야는 목표 검출 기술을 이용하여 질병 부위 발견, 세포 수 계산 등에 이용될 수 있다
그러나 일부 산업 또는 분야에서, 이미지 수집 영역에 비해 목표가 매우 작아 일반적으로 1:100~1:1000범위 내이며, 이는 현재의 목표 검출 기술을 사용하여 목표 수집 영역을 촬영하는 픽처에서 매우 작은 목표를 검출하는 것은 매우 어렵거나 심지어 거의 불가능하게 한다. 예를 들면 공업 분야에서, 용접된 강판의 X-ray스캔 이미지에서 냉납을 탐지하거나 또는 핸드폰 유리 커버의 스캔 이미지에서 결함을 검출해야 할 경우, 전체 사진에서 용접 결함의 점유율이 매우 작아, 현재의 목표 검출 기술을 직접 사용하여 이러한 매우 작은 목표의 검출을 구현하는 것은 불가능하다.
본 공개의 제1 측면에 따르면, 본 공개의 실시예는 제1 트레이닝 데이터 세트 중 각 트레이닝 픽처 상의 목표 점유율을 통계함으로써, 제1 트레이닝 데이터 세트 중의 적어도 하나의 전형적인 목표 점유율을 결정하는 단계; 적어도 하나의 전형적인 목표 점유율을 기반으로 적어도 하나의 픽처 스케일링 사이즈를 결정하고, 적어도 하나의 픽처 스케일링 사이즈에 따라 제1 트레이닝 데이터 세트 중의 각 트레이닝 픽처에 대해 스케일링을 진행하는 단계; 스케일링된 각 트레이닝 픽처에 대해 슬라이싱을 진행하여, 제2 트레이닝 데이터 세트를 얻는 단계; 제2 트레이닝 데이터 세트를 이용하여 목표 검출 모델에 대해 트레이닝하는 단계; 및 트레이닝된 목표 검출 모델을 이용하여 검출 대상 픽처에 대해 목표 검출을 진행하는 단계를 포함하는, 목표 검출 방법을 공개하였다.
본 공개의 제2 측면에 따르면, 본 공개의 실시예는 픽처 슬라이싱 구성 모듈, 모델 트레이닝 모듈, 목표 검출 모듈을 포함하는 목표 검출 장치를 공개하였고, 상기 픽처 슬라이싱 구성 모듈은, 제1 트레이닝 데이터 세트 중 각 트레이닝 픽처 상의 목표 점유율을 통계함으로써, 제1 트레이닝 데이터 세트 중의 적어도 하나의 전형적인 목표 점유율을 결정하고, 적어도 하나의 전형적인 목표 점유율을 기반으로 적어도 하나의 픽처 스케일링 사이즈를 결정하고, 적어도 하나의 픽처 스케일링 사이즈에 따라 제1 트레이닝 데이터 세트 중의 각 트레이닝 픽처에 대해 스케일링을 진행하도록 구성되며; 상기 모델 트레이닝 모듈은, 스케일링된 각 트레이닝 픽처에 대해 슬라이스를 진행하여 제2 트레이닝 데이터 세트를 얻고, 제2 트레이닝 데이터 세트를 이용하여 목표 검출 모델에 대해 트레이닝하도록 구성되며; 상기 목표 검출 모듈은, 트레이닝된 목표 검출 모델을 이용하여 검출 대상 픽처에 대해 목표 검출을 진행하도록 구성된다.
본 공개의 제3 측면에 따르면, 본 공개의 실시예는 프로세서; 및 컴퓨터 프로그램이 저장된 메모리를 포함하고, 상기 컴퓨터 프로그램이 프로세서에 의해 실행될 때 상기 목표 검출 방법을 실행하는 컴퓨터 시스템을 공개하였다.
본 공개의 제4 측면에 따르면, 본 공개의 실시예는 상기 컴퓨터 프로그램이 컴퓨터 시스템의 프로세서에 의해 실행될 때 컴퓨터 시스템이 상기 목표 검출 방법을 실행하는, 컴퓨터 판독 가능 저장 매체를 공개하였다.
본 공개의 제5 측면에 따르면, 본 공개의 실시예는 컴퓨터 판독 가능 매체에 저장된 컴퓨터 프로그램을 공개하였고, 상기 컴퓨터 프로그램은 명령을 포함하고, 상기 명령이 적어도 하나의 프로세서에 의해 실행될 때 상기 목표 검출 방법을 구현한다.
본 공개의 하나 또는 복수의 실시예에 따르면, 제1 트레이닝 데이터 세트 중의 목표 점유율을 통계함으로써 제1 트레이닝 데이터 세트 중의 적어도 하나의 전형적인 목표 점유율을 결정하고, 적어도 하나의 전형적인 목표 점유율을 기반으로 적어도 하나의 픽처 스케일링 사이즈를 결정하고, 적어도 하나의 픽처 스케일링 사이즈에 따라 제1 트레이닝 데이터 세트 중의 각 트레이닝 픽처에 대해 스케일링을 진행하며, 스케일링된 각 트레이닝 픽처에 대해 슬라이싱을 진행하여, 제2 트레이닝 데이터 세트를 얻고, 제2 트레이닝 데이터 세트를 이용하여 목표 검출 모델에 대해 트레이닝하여, 트레이닝된 목표 검출 모델은 검출 대상 픽처 점유율에 대해 목표가 매우 작은 상황에서도 검출 대상 픽처 상에서 목표를 정확하게 검출할 수 있으므로, 수동 개입없이 작은 목표의 검출 임무를 고품질로 완성할 수 있다.
첨부된 도면은 실시예를 예시적으로 나타내고 명세서의 일부를 구성하며, 명세서의 문자 설명과 함께 실시예의 예시적인 실시 형태를 해석하기 위한 것이다. 도시된 실시예는 예시의 목적으로만 사용되고, 청구항의 범위를 한정하지 않는다. 모든 도면에서, 동일한 도면 부호는 유사하지만 반드시 동일하지는 않은 요소를 가리킨다.
도 1은 본 공개의 실시예에 따른 목표 검출 방법을 나타낸 흐름도이다.
도 2a는 스케일링된 트레이닝 픽처를 개략적으로 나타낸 개략도이다.
도 2b는 도 2a에 도시된 스케일링된 트레이닝 픽처에 대해 슬라이싱을 진행하는 것을 나타낸 개략도이다.
도 3은 도1에 도시한 목표 검출 방법 중의 단계S105를 나타낸 흐름도이다.
도 4는 본 공개의 실시예에 따른 목표 검출 장치를 나타낸 구조 블록도이다.
도 5는 본 공개의 실시예를 구현하는 예시적 컴퓨터 시스템을 나타낸 구조 블록도이다.
이하에서는 도면과 실시예를 결합하여 본 공개에 대해 추가적으로 자세히 설명한다. 여기서 서술한 구체적인 실시예는 관련 발명을 해석하기 위한 것일 뿐, 상기 발명을 한정하는 것은 아니다. 또한, 추가로 설명해야 할 것은, 설명의 편의를 위해, 관련 발명과 관련된 부분만을 도면에 도시하였다.
설명해야 할 것은, 모순되지 않는 한, 본 공개의 실시예 및 실시예 중의 특징은 서로 결합될 수 있다. 문맥상, 별도로 명백히 표시하지 않은 한, 요소의 수를 특별히 한정하지 않으면, 상기 요소는 하나 또는 다수일 수 있다. 또한, 본 공개에서 사용되는 단계 또는 기능 모듈의 번호는 단지 각 단계 또는 기능 모듈을 식별하기 위한 것일 뿐, 각 단계의 실행 순서 또는 각 기능 모듈 상호간의 연결 관계를 한정하는 것이 아니다.
현재, 작은 목표에 대한 검출 방안은 아래와 같이 몇가지 있다:1) 특징 피라미드 네트워크(FPN)층을 이용하여, 입력된 픽처상의 특징에 대해 다중 스케일 융합을 진행함으로써 작은 목표에 대한 검출 효과를 개선하거나; 2)입력된 픽처에 대해 서로 다른 스케일로 확대하고, 서로 다른 확대 스케일의 입력 픽처에 대해 목표 검출을 진행한 후, 서로 다른 확대 스케일의 입력 픽처의 목표 검출 결과를 합병하거나; 3)트레이닝된 픽처에 대해 슬라이싱하여 트레이닝 픽처와 관련된 주석 정보에 대해 수정하여 트레이닝 이미지 슬라이스 및 이와 관련된 주석 정보를 얻고, 트레이닝 이미지 슬라이스 및 이와 관련된 주석 정보를 이용하여 목표 검출 모델을 트레이닝하고, 트레이닝된 목표 검출 모델을 이용하여 목표 검출을 진행한다.
이상 몇가지 방안은 아래와 같은 문제점이 존재한다: 방안1) 목표 점유율이 1:10인 이러한 등급의 작은 목표에서만 검출 효과를 개선할 수 있으며, 예를 들면 목표 점유율이 1:100인 매우 작은 목표에 대한 검출에는 적용할 수 없고, 방안2) 목표의 사이즈를 상응하게 증가시킬 수 있으나, 그래픽 프로세서(GPU)의 메모리 제한으로 인해, 목표 검출 모델의 입력 픽처의 사이즈는 일반적으로 2000픽셀에 불과하므로, 입력된 픽처를 5000픽셀로 확대, 또는 10000픽셀로 확대해야 하는 매우 작은 목표에 대한 검출에는 확실히 적합하지 않으며; 방안3) 다른 트레이닝 데이터 세트에 대해 다른 트레이닝 이미지 슬라이스 사이즈를 수동으로 선택하고, 트레이닝된 목표 검출 모델은 검출 대상 이미지에 대해 전체적으로 목표 검출을 진행하므로, 매우 작은 목표에 대한 검출에는 적합하지 않다.
현재의 작은 목표에 대한 검출 방안은 목표 점유율이 매우 낮은 매우 작은 목표에 대한 검출 효과가 매우 낮고, 또한 수동 개입이 없이 목표 검출 모델을 트레이닝하여 매우 작은 목표에 대한 검출 임무를 고품질로 완성하는 것은 불가능하다.
현재의 작은 목표를 검출하는 방안에 존재하는 상기 문제를 감안하여, 본 공개는 목표 검출 방법 및 장치를 제공함으로써, 수동 개입 없이 매우 작은 목표에 대한 검출 임무를 고품질로 완성할 수 있다. 본 공개의 실시예에 따른 목표 검출 방법 및 장치는 예를 들면 산업 품질 검사, 농업 항공 사진등 장면에 응용할 수 있다. 이하 도면과 결합하여, 본 공개의 실시예에 따른 목표 검출 방법 및 장치를 상세히 설명한다.
도 1은 본 공개의 실시예에 따른 목표 검출 방법(100)을 나타낸 흐름도이다. 도 1에 도시한 바와 같이, 목표 검출 방법(100)은, 제1 트레이닝 데이터 세트 중 각 트레이닝 픽처 상의 목표 점유율을 통계함으로써, 제1 트레이닝 데이터 세트 중의 적어도 하나의 전형적인 목표 점유율을 결정하는 단계(S101); 적어도 하나의 전형적인 목표 점유율을 기반으로 적어도 하나의 픽처 스케일링 사이즈를 결정하고 적어도 하나의 픽처 스케일링 사이즈에 따라 제1 트레이닝 데이터 세트 중의 각 트레이닝 픽처에 대해 스케일링을 진행하는 단계(S102); 스케일링된 각 트레이닝 픽처에 대해 슬라이싱을 진행하여, 제2 트레이닝 데이터 세트를 얻는 단계(S103); 제2 트레이닝 데이터 세트를 이용하여 목표 검출 모델에 대해 트레이닝하는 단계(S104); 및 트레이닝된 목표 검출 모델을 이용하여 검출 대상 픽처에 대해 목표 검출을 진행하는 단계를(S105)를 포함할 수 있다.
본 공개의 실시예에 따른 목표 검출 방법은 제1 트레이닝 데이터 세트 중의 전형적인 목표 점유율을 기반으로 적어도 하나의 픽처 스케일링 사이즈를 적합하게 결정하고, 적어도 하나의 픽처 스케일링 사이즈에 따라 제1 트레이닝 데이터 세트 중의 트레이닝 픽처에 대해 스케일링을 진행하고, 스케일링된 각 트레이닝 픽처에 대해 슬라이싱을 진행하여 제2 트레이닝 데이터 세트를 얻고, 제2 트레이닝 데이터 세트를 이용하여 목표 검출 모델에 대해 트레이닝함으로써, 트레이닝된 목표 검출 모델은 목표가 검출 대상 픽처에 대한 점유율이 매우 작은 상황에서도 검출 대상 픽처상에서 목표를 정확하게 검출할 수 있으므로, 수동 개입없이도 매우 작은 목표에 대한 검출 임무를 고품질로 완성할 수 있다.
여기서, 제1 트레이닝 데이터 세트는 복수의 트레이닝 픽처와 복수의 트레이닝 픽처와 관련된 각각의 주석 정보를 포함한다. 임의의 하나의 트레이닝 픽처의 경우, 상기 트레이닝 픽처상에 하나 또는 복수의 목표가 존재할 수 있으며, 임의의 하나의 목표의 목표 점유율이란 상기 목표의 목표 검출 프레임의 크기가 상기 트레이닝 픽처의 전체 사이즈에 대한 비율을 말하며, 상기 트레이닝 픽처와 관련된 주석 정보는 상기 트레이닝 픽처상의 각 목표 검출 프레임과 관련된 좌표 정보를 포함한다.
일부 실시예에서, 제1 트레이닝 데이터 세트 중의 각 트레이닝 픽처 상의 모든 목표 점유율을 통해 클러스터링을 진행함으로써, 제1 트레이닝 데이터 세트 중의 적어도 하나의 전형적인 목표 점유율을 얻는다. 예를 들면, 임의의 하나의 트레이닝 데이터 세트(A)의 경우, 트레이닝 데이터 세트(A) 중의 각 트레이닝 픽처 상의 모든 목표 점유율에 대해 클러스터링을 진행함으로써, 트레이닝 데이터 세트(A) 중의 3개의 전형적인 점유율(R1, R2 및 R3)을 얻을 수 있다.
일부 실시예에서, 목표 검출 모델의 트레이닝을 용이하도록 하기 위해, 제 1 트레이닝 데이터 세트 중의 각 트레이닝 픽처상의 대부분의 목표 검출 프레임의 사이즈를 어느 고정 사이즈에 근접하게 스케일링한다. 따라서, 제1 트레이닝 데이터 세트 중의 적어도 하나의 전형적인 목표 점유율과 상기 고정 사이즈를 기반으로 적어도 하나의 픽처 스케일링 사이즈를 결정할 수 있다. 예를 들면, 트레이닝 데이터 세트(A)에 대하여, 각 트레이닝 픽처 상의 대부분의 목표 검출 프레임의 크기를 고정 사이즈(T0)로 스케일링한다고 가정하면, 고정 사이즈(T0)를 트레이닝 데이터 세트(A)의 3개의 전형적인 목표 점유율(R1, R2 및 R3)로 나누어 3개의 픽처 스케일링 사이즈(, , 및 )를 결정할 수 있다.
일부 실시예에서, 목표 검출 모델의 트레이닝 효과를 향상시키기 위해, 목표 검출 모델의 최적 검출 사이즈에 기반하여 적어도 하나의 픽처 스케일링 사이즈를 추가로 결정할 수 있다. 다시 말해, 제1 트레이닝 데이터 세트 중의 적어도 하나의 전형적인 점유율과 목표 검출 모델의 최적 검출 사이즈를 기반으로, 적어도 하나의 픽처 스케일링 사이즈를 결정함으로써, 제1 트레이닝 데이터 세트 중의 각 트레이닝 픽처 상의 대부분의 목표 검출 프레임의 사이즈를 목표 검출 모델의 최적 검출 사이즈에 근접하게 스케일링한다. 예를 들면, 트레이닝 데이터 세트(A)에 대하여, 목표 검출 모델의 최적 검출 사이즈가 T라고 가정하면, 목표 검출 모델의 최적 검출 사이즈(T)를 트레이닝 데이터 세트(A) 중의 전형적인 점유율(R1, R2 및 R3)로 나누어, 3개의 픽처 스케일링 사이즈(, , 및 )를 결정할 수 있다.
일부 실시예에서, 적어도 하나의 픽쳐 스케일링 사이즈에 따라 제1 트레이닝 데이터 세트 중의 각 트레이닝 픽처에 대해 스케일링을 진행하는 것은, 적어도 하나의 픽처 스케일링 사이즈 중의 임의의 하나의 픽처 스케일링 사이즈에 대하여, 제1 트레이닝 데이터 세트 중의 각 트레이닝 픽처를 모두 상기 픽처 스케일링 사이즈로 스케일링하는 것을 포함한다. 예를 들면, 트레이닝 데이터 세트(A)에 대하여, 트레이닝 데이터 세트(A) 중의 각 트레이닝 이미지를 픽처 스케일링 사이즈(, , )에 따라 3회 스케일링하여, 트레이닝 데이터 세트(A) 중의 각 트레이닝 픽처의 대부분의 목표 검출 프레임이 모두 목표 검출 모델의 최적 검출 사이즈(T)에 근접하게 스케일링 되도록 할 수 있다.
또는 일부 실시예에서, 적어도 하나의 픽쳐 스케일링 사이즈에 따라 제1 트레이닝 데이터 세트 중의 각 트레이닝 픽처에 대해 스케일링을 진행하는 것은, 제1 트레이닝 데이터 세트 중의 적어도 하나의 전형적인 목표 점유율에 따라 제1 트레이닝 데이터 세트 중의 트레이닝 픽처를 적어도 하나의 트레이닝 픽처 그룹으로 분할하고, 각 트레이닝 픽처 그룹중의 트레이닝 픽처를 상응하는 픽처 스케일링 사이즈로 스케일링하는 것을 포함할 수 있다. 예를 들면, 트레이닝 데이터 세트(A)에 대하여, 트레이닝 데이터 세트(A) 중의 전형적인 점유율(R1, R2 및 R3)에 따라 트레이닝 데이터 세트(A) 중의 트레이닝 픽처를 A1, A2 및 A3 3개의 트레이닝 픽처 그룹으로 나눌 수 있고, A1, A2 및 A3 3개의 트레이닝 픽처 그룹중의 트레이닝 픽처를 각각 3개의 픽처 스케일링 사이즈(, , 및 )로 스케일링한다. 트레이닝 데이터 세트(A) 중의 각 트레이닝 픽처를 픽처 스케일링 사이즈(, , 및 )에 따라 3회 스케일링한 것과 비교하면, 본 실시예의 처리 효율은 상대적으로 높으나, 트레이닝 효과는 약간 나쁘다.
매우 작은 목표에 대해 검출을 진행해야 하는 응용 장면에서, 제1 트레이닝 데이터 세트 중의 전형적인 점유율은 예를 들면 1:100 내지 1:1000 범위 내이며, 각 스케일링된 트레이닝 픽처의 사이즈가 매우 커, 이는 이미지 프로세서의 메모리가 부족한 문제를 일으킨다. 따라서, 각 스케일링된 트레이닝 픽처에 대해 슬라이싱을 해야 한다. 일부 실시예에서, 스케일링된 각 트레이닝 픽처에 대해 슬라이싱을 진행하여 제2 트레이닝 데이터 세트를 얻는 단계는, 스케일링된 각 트레이닝 픽처에 대해 슬라이싱하여 트레이닝 이미지 슬라이스 세트를 획득하는 단계; 및 제1 트레이닝 데이터 세트 중 각 트레이닝 픽처와 관련된 주석 정보를 변환함으로써 트레이닝 이미지 슬라이스 세트 중의 각 트레이닝 이미지 슬라이스와 관련된 주석 정보를 획득하는 단계를 포함하고, 그 중, 트레이닝 이미지 슬라이스 세트와 트레이닝 이미지 슬라이스 세트 중의 각 트레이닝 이미지 슬라이스에 관련된 주석 정보로 상기 제2 트레이닝 데이터 세트를 구성한다. 제2 트레이닝 데이터 세트를 기반으로 목표 검출 모델에 대해 트레이닝을 진행하여, 이미지 프로세서의 메모리가 부족한 문제를 방지함과 동시에, 목표 검출 모델의 매우 작은 목표에 대한 검출 능력을 향상시킬 수 있다.
여기서, 제1 트레이닝 데이터 세트 중 각 트레이닝 픽처와 관련된 주석 정보를 변환하는 것은 제1 트레이닝 데이터 세트 중 각 트레이닝 이미지 슬라이스 상의 목표 검출 프레임과 관련된 좌표 정보에 대해 변환하는 것을 말한다. 즉, 제1 트레이닝 데이터 세트 중 임의의 하나의 트레이닝 픽처 상의 임의의 하나의 목표 검출 프레임에 대해, 상기 목표 검출 프레임과 관련된 좌표 정보를 상기 트레이닝 픽처에 기반한 좌표 정보로부터 상기 목표 검출 프레임을 포함한 트레이닝 이미지 슬라이스에 기반한 좌표 정보로 변환하고, 그 중, 상기 트레이닝 이미지 슬라이스는 상기 트레이닝 픽처에 대해 슬라이싱하여 얻는다.
일부 실시예에서, 목표 검출 모델의 입력 픽처 사이즈를 트레이닝 이미지 슬라이스 사이즈로 이용하여, 스케일링된 각 트레이닝 픽처에 대해 슬라이스를 진행할 수 있다. 즉, 트레이닝 이미지 슬라이스 사이즈를 수동으로 설정할 필요 없이, 목표 검출 모델의 입력 픽처 사이즈를 직접 이용하여 스케일링된 각 트레이닝 픽처에 대해 슬라이싱할 수 있다.
일부 실시예에서, 목표 검출 모델의 입력 픽처 사이즈를 트레이닝 이미지 슬라이스 사이즈로 이용하는 경우, 목표 검출 모델의 입력 픽처 사이즈와 최적 검출 사이즈의 차이보다 작은 이동 스텝 사이즈를 이용하여, 스케일링된 각 트레이닝 픽처에 대해 슬라이싱을 진행할 수 있다. 이로써, 스케일링된 각 트레이닝 픽처상의 각 목표 검출 프레임이 적어도 하나의 트레이닝 이미지 슬라이스에 완전하게 나타날 수 있도록 보장할 수 있다.
예를 들어, 목표 검출 모델의 입력 픽처 사이즈가 I이고, 최적 검출 사이즈를 T라고 가정하면, 트레이닝 이미지 슬라이스 사이즈를 I로 설정하고, 이동 스텝 사이즈S를 (즉, , 예를 들면, )보다 작게 설정한다. 도2a는 스케일링된 트레이닝 픽처를 개략적으로 나타낸 개략도이다. 도 2b는 도 2a에 도시된 스케일링된 트레이닝 픽처에 대해 슬라이싱을 진행하는 것을 나타낸 개략도이다. 도 2a와 도 2b에 도시한 바와 같이, 트레이닝 이미지 슬라이스 사이즈가 I이고, 이동 스텝 사이즈가 S인 경우, 사이즈가 I×I 인 슬라이딩 윈도우를 스케일링된 트레이닝 픽처의 좌측 상부각 정점에서부터 각각 가로축 방향 및 세로축 방향을 따라 슬라이딩시키는 것으로 스케일링된 트레이닝 픽처에 대해 슬라이싱을 진행하고, 그 중, 슬라이딩 윈도우가 매회 이동하는 거리, 즉 이동 스텝 사이즈는 S이며, 슬라이딩 윈도우가 슬라이딩 할 때마다 하나의 트레이닝 이미지 픽처, 예를 들면 트레이닝 이미지 픽처 Q와 Q1 를 얻을 수 있다. 이러한 상황에서, 더 많은 트레이닝 이미지 슬라이스를 얻기 위해, 이동 스텝 사이즈S를 적절히 감소시킬 수 있다.
일부 실시예에서, 목표 검출 모델의 입력 픽처 사이즈를 트레이닝 이미지 슬라이스 사이즈로 이용하고, 목표 검출 모델의 입력 픽처 사이즈와 최적 검출 사이즈의 차이보다 작은 이동 스텝 사이즈를 이용하여 스케일링된 각 트레이닝 픽처에 대해 슬라이싱을 진행하는 경우, 스케일링된 각 트레이닝 픽처상의 각 목표 검출 프레임은 모두 적어도 하나의 트레이닝 이미지 슬라이스에 완전히 나타날 수 있다. 트레이닝 이미지 슬라이스 사이의 중첩 영역의 다중 검출 상황을 줄이기 위해, 제2 트레이닝 데이터 세트 중의 임의의 하나의 트레이닝 이미지 슬라이스에 대해, 상기 트레이닝 이미지 슬라이스와 관련된 주석 정보로부터 상기 트레이닝 이미지 슬라이스 상의 불완전한 목표 검출 프레임과 관련된 좌표 정보를 제거할 수 있다. 예를 들면, 도 2b에 도시한 바와 같이, 목표 검출 프레임(a1)은 트레이닝 이미지 슬라이스(Q)에서 불완전하므로, 트레이닝 이미지 슬라이스(Q)와 관련된 주석 정보에서 목표 검출 프레임(a1)과 관련된 좌표 정보를 제거할 수 있다. 반대로, 목표 검출 프레임(a1)이 트레이닝 이미지 슬라이스(Q1)에 완전하게 나타나므로, 트레이닝 이미지 슬라이스(Q1)와 관련된 좌표 정보에서 목표 검출 프레임(a1)과 관련된 좌표 정보를 유지한다.
일부 실시예에서, 제2 트레이닝 데이터 세트와 각 트레이닝 이미지 슬라이스와 관련된 주석 정보에서 그 사이즈와 목표 검출 모델의 최적 검출 사이즈 차이가 비교적 큰 목표 검출 프레임에 관련된 좌표 정보를 제거하여, 이들 목표 검출 프레임이 목표 검출 모델의 트레이닝에 참여하지 않도록 한다. 이로써, 목표 검출 모델의 트레이닝 효율을 향상시킴과 동시에 목표 검출 모델의 트레이닝 효과를 향상시킬 수 있다.
일부 실시예에서, 매우 작은 목표에 대한 검출이 필요한 응용 장면에서, 제1 트레이닝 데이트 세터 중의 각 트레이닝 픽처상의 목표 점유율이 매우 작고, 각 트레이닝 픽처의 대부분의 영역은 모두 목표 검출 프레임의 배경 영역을 포함하지 않아서, 만약 목표 검출 프레임을 포함하는 트레이닝 이미지 슬라이스만을 사용하여 목표 검출 모델에 대해 트레이닝하면, 트레이닝된 목표 검출 모델이 후속의 검출 대상 픽처의 배경 영역에 대해 검출할 때 매우 많은 잘못된 검출이 발생하게 된다. 이러한 상황의 발생을 방지하기 위해, 제2 트레이닝 데이터 세트 중 목표 검출 프레임을 포함하는 트레이닝 이미지 슬라이스, 목표 검출 프레임을 포함하지 않는 트레이닝 이미지 슬라이스, 및 이들과 관련된 주석 정보를 이용하여 목표 검출 모델에 대해 트레이닝을 진행할 수 있다. 이로써, 목표 검출 모델의 목표 검출 프레임을 포함하지 않는 배경 영역에 대한 학습을 향상시키고, 매우 작은 목표에 대한 검출을 구현할 때 목표 검출 프레임을 포함하지 않는 배경 영역의 잘못된 검출 상황을 감소시킬 수 있다.
일부 실시예에서, 도 3에 도시한 바와 같이,트레이닝된 목표 검출 모델을 이용하여 검출 대상 픽처에 대해 목표 검출을 진행하는 단계는, 적어도 하나의 픽처 스케일링 사이즈에 따라 검출 대상 픽처에 대해 스케일링을 진행하는 단계(S1051); 스케일링된 검출 대상 픽처에 대해 슬라이싱하여 검출 대상 이미지 슬라이스 세트를 얻는 단계(S1052); 및 검출 대상 이미지 슬라이스 세트를 트레이닝된 목표 검출 모델에 입력하여 목표 검출을 진행하는 단계(S1053)를 포함할 수 있다. 검출 대상 픽처에 대해 스케일링 및 슬라이싱을 진행함으로써, 일방면에서는 이미지 프로세서의 메모리가 부족한 문제를 방지할 수 있고, 다른 방면에서는 검출 대상 이미지 슬라이스의 매우 작은 목표에 대한 검출을 구현하므로, 검출 대상 픽처 전체에 대해 매우 작은 목에 대한 검출을 구현할 수 있다.
일부 실시예에서,목표 검출 모델의 입력 픽처 사이즈를 검출 대상 이미지 슬라이스 사이즈로 이용하여, 스케일링된 검출 대상 픽처에 대해 슬라이싱할 수 있다. 이로써, 이미지 프로세서의 메모리 부족 문제를 방지할 수 있다. 즉, 검출 대상 이미지 슬라이스 사이즈를 트레이닝 이미지 슬라이스 사이즈와 동일하게 설정할 수 있는바, 목표 검출 모델의 입력 픽처 사이즈와 동일하다. 이해해야 할 것은, 검출 대상 이미지 슬라이스 크기를 적절히 증가시켜 목표 검출 모델의 입력 픽처 사이즈보다 크게 함으로써, 검출 대상 픽처의 슬라이싱 효율을 향상시킬 수 있다.
일부 실시예에서, 목표 검출 모델의 입력 픽처 사이즈와 최적 검출 사이즈의 차이보다 작은 이동 스텝 사이즈를 이용하여, 스케일링된 검출 대상 픽처에 대해 슬라이싱할 수 있다. 예를 들면, 스케일링된 검출 대상 픽처에 대해 슬라이싱하는 이동 스텝 사이즈를 스케일링된 트레이닝 픽처에 대해 슬라이싱하는 이동 스텝 사이즈와 동일하게 설정할 수 있다. 이로써, 스케일링된 각 트레이닝 픽처상의 각 목표 검출 프레임이 적어도 하나의 트레이닝 이미지 슬라이스에 완전하게 나타날 수 있도록 보장할 수 있다.
일부 실시예에서, 검출 대상 이미지 슬라이스 세트 중의 임의의 하나의 검출 대상 픽처 슬라이스에 대해, 만약 상기 검출 대상 이미지 슬라이스 상에서 상기 검출 대상 이미지 슬라이스의 엣지와 중첩된 목표 검출 프레임이 검출되면, 상기 목표 검출 프레임을 드롭할 수 있다. 예를 들면, 트레이닝된 목표 검출 모델이 어떤 검출 대상 이미지 슬라이스에 대해 목표 검출을 진행할 때, 상기 검출 대상 이미지 슬라이스상의 어떤 목표 검출 프레임이 불완전한 것을 발견하면, 상기 목표 검출 프레임을 드롭할 수 있다(즉, 상기 목표 검출 프레임이 검출되었다고 인식하지 않음). 이로써, 검출 대상 이미지 슬라이스 사이의 중첩 영역의 다중 검출 상황을 감소시킬 수 있다.
일부 실시예에서, 검출 대상 이미지 슬라이스 세트를 트레이닝된 목표 검출 모델에 입력하여 목표 검출을 진행하는 단계는, 트레이닝된 목표 검출 모델을 이용하여 검출 대상 이미지 슬라이스 세트 중의 각각의 검출 대상 이미지 슬라이스 상의 목표 검출 프레임과 관련된 좌표 정보를 얻는 단계; 검출 대상 이미지 슬라이스 세트 중의 각각의 검출 대상 이미지 슬라이스 상의 목표 검출 프레임과 관련된 좌표 정보를 상기 검출 대상 픽처에 기반한 좌표 정보로 변환하는 단계를 포함한다. 예를 들면, 임의의 하나의 검출 대상 이미지 슬라이스상에서 검출된 임의의 하나의 목표 검출 프레임에 대하여, 상기 목표 검출 프레임과 관련된 좌표 정보를 상기 검출 대상 이미지 슬라이스에 기반한 좌표 정보로부터 검출 대상 이미지에 기반한 좌표 정보로 변환한다. 이로써, 검출 대상 픽처에 대해 비교적 직관적인 목표 검출 결과를 얻을 수 있다.
종합하자면, 본 공개의 실시예에 따른 목표 검출 방법은 수동 개입이 없는 상황에서 작은 목표에 대한 검출 임무를 고품질로 완성할 수 있으며, 예를 들면, 산업 품질 검사, 농업 항공 사진등 장면에 적용가능하다.
도 4는 본 공개의 실시예에 따른 목표 검출 장치(400)를 나타낸 구조 블록도이다. 도 4에 도시한 바와 같이,목표 검출 장치(400)는 픽처 슬라이싱 구성 모듈(401), 모델 트레이닝 모듈(402) 및 목표 검출 모듈(403)을 포함할 수 있다. 픽처 슬라이싱 구성 모듈(401)은, 제1 트레이닝 데이터 세트 중 각 트레이닝 픽처 상의 목표 점유율을 통계함으로써 제1 트레이닝 데이터 세트 중의 적어도 하나의 전형적인 목표 점유율을 결정하고,적어도 하나의 전형적인 목표 점유율을 기반으로 적어도 하나의 픽처 스케일링 사이즈를 결정하고, 적어도 하나의 픽처 스케일링 사이즈에 따라 제1 트레이닝 데이터 세트 중의 각 트레이닝 픽처에 대해 스케일링을 진행하도록 구성된다. 모델 트레이닝 모듈(402)은 스케일링된 각 트레이닝 픽처에 대해 슬라이싱을 진행하여 제2 트레이닝 데이터 세트를 얻고, 제2 트레이닝 데이터 세트를 이용하여 목표 검출 모델에 대해 트레이닝하도록 구성된다. 목표 검출 모듈(403)은 트레이닝된 목표 검출 모델을 이용하여 검출 대상 픽처에 대해 목표 검출을 진행하도록 구성된다.
본 실시예에서, 목표 검출 장치(400) 및 상응하는 기능 모듈의 구체적인 구현 방식 및 기술 효과는 도1에서 설명한 실시예중의 관련 설명을 참조할 수 있으므로, 설명은 생략한다.
도 5는 본 공개의 실시예를 구현하는 예시적 컴퓨터 시스템을 나타낸 구조 블록도이다. 이하, 도5와 결합하여, 본 공개의 실시예를 구현하는데 적용되는 컴퓨터 시스템(500)을 설명한다. 분명히 해야 할 점은, 도5에 도시된 컴퓨터 시스템(500)은 단지 예시일 뿐, 본 공개의 실시예의 기능 및 사용 범위에 대해 어떠한 한정을 해서는 안된다.
도 5에 도시한 바와 같이, 컴퓨터 시스템(500)은 처리 장치(501)(예를 들면 CPU, 그래픽 프로세서)를 포함할 수 있고, 컴퓨터 시스템은 ROM(502)에 저장된 프로그램 또는 저장장치(508)에서 RAM(503)에 로드된 프로그램에 따라 각종 적합한 동작 및 처리를 실행할 수 있다. RAM(503)에는 컴퓨터 시스템(503)동작에 필요한 각종 프로그램 및 데이터가 추가로 저장되어 있다. 처리 장치(501), ROM(502) 및 RAM(503)은 버스(504)를 통해 서로 연결된다. 입력/출력(I/O) 인터페이스(503)도 버스(504)에 연결된다.
일반적으로, 다음 장치는 I/O인터페이스(505)에 연결될 수 있다: 예를 들면 터치 스크린, 터치 패널, 카메라, 가속도계, 자이로스코프등을 포함하는 입력 장치(506); LCD(Liquid Crystal Display), 스피커, 진동기등을 포함하는 출력 장치(507); 예를 들면 플래쉬 카드(Flash Card)등을 포함하는 저장 장치(508); 및 통신 장치(509)를 포함한다. 통신 장치(509)는 컴퓨터 시스템(500)이 다른 장치와 무선 또는 유선으로 통신을 진행하여 데이터를 교환하도록 허용할 수 있다. 도5에는 각종 장치를 구비한 컴퓨터 시스템(500)만을 도시하였으나, 모든 장치를 구현 또는 구비할 필요는 없음을 이해해야 한다. 더 많은 또는 더 적은 장치를 대체하여 구현 또는 구비할 수 있다. 도 5에 도시한 각 블록은 하나의 장치를 나타내거나 또는 필요에 따라 여러 장치를 나타낼 수 있다.
특별히, 본 공개의 실시예에 따르면, 상기 흐름도를 참조하여 설명하는 과정은 컴퓨터 소프트웨어 프로그램으로 구현될 수 있다. 예를 들면, 본 공개의 실시예는 컴퓨터 프로그램이 저장된 컴퓨터 판독 가능 저장 매체를 제공하고, 상기 컴퓨터 프로그램은 도 1에 도시된 방법(100)을 실행하는 프로그램 코드를 포함한다. 이러한 실시예에서, 상기 컴퓨터 프로그램은 통신 장치(509)를 통해 네트워크상에서 다운로드 및 설치하거나, 저장장치(508)로부터 설치하거나, 또는 ROM(502)으로부터 설치할 수 있다. 상기 컴퓨터 프로그램이 처리장치(501)에 의해 실행될 때, 본 공개의 실시예의 장치에서 기재한 상기 기능을 구현한다.
설명해야 할 것은, 본 공개의 실시예에서 설명하는 컴퓨터 판독 가능 매체는 컴퓨터 판독 가능 저장 매체이다. 컴퓨터 판독 가능 저장 매체는 예를 들면, 전자, 자기, 광, 전자기, 적외선 또는 반도체의 시스템, 장치 또는 디바이스, 또는 이들의 임의의 조합일 수 있지만, 이에 한정되지 않는다. 컴퓨터 판독 가능 저장 매체의 더욱 구체적인 예는 하나 이상의 와이어를 갖는 전기적 연결, 휴대용 컴퓨터 디스켓, 하드디스크, RAM, ROM, 소거 및 프로그래밍 가능한 읽기 전용 메모리(EPROM 또는 플래쉬 메모리), 광섬유, 휴대용 컴팩트 디스크 읽기 전용 메모리(CD-ROM), 광학 저장 장치, 자기 저장장치 또는 이들의 임의의 적절한 조합을 포함할 수 있으나, 이에 한정되지 않는다. 본 공개의 실시예에서, 컴퓨터 판독 가능 저장 매체는 프로그램을 포함하거나 저장하는 모든 유형 매체일 수 있으며, 상기 프로그램은 명령 실행 시스템, 장치 또는 디바이스에 의해 사용되거나 또는 이들과 결합하여 사용할 수 있다.
상기 컴퓨터 판독 가능 매체는 상기 컴퓨터 시스템(500)에 포함될 수 있고, 별개로 존재할 수도 있으나, 상기 컴퓨터 시스템(500)에는 장착되지 않는다. 상기 컴퓨터 판독 가능 매체에는 하나 또는 복수의 프로그램이 설치되어 있고, 상기 하나 이상의 프로그램이 상기 컴퓨터 장치에 의해 실행될 때, 상기 컴퓨터 시스템은, 제1 트레이닝 데이터 세트 중 각 트레이닝 픽처 상의 목표 점유율을 통계함으로써 제1 트레이닝 데이터 세트 중의 적어도 하나의 전형적인 목표 점유율을 결정하고; 적어도 하나의 전형적인 목표 점유율을 기반으로 적어도 하나의 픽처 스케일링 사이즈를 결정하고, 적어도 하나의 픽처 스케일링 사이즈에 따라 제1 트레이닝 데이터 세트 중의 각 트레이닝 픽처에 대해 스케일링을 진행하며; 스케일링된 각 트레이닝 픽처에 대해 슬라이싱을 진행하여 제2 트레이닝 데이터 세트를 얻고; 제2 트레이닝 데이터 세트를 이용하여 목표 검출 모델에 대해 트레이닝하며; 트레이닝된 목표 검출 모델을 이용하여 검출 대상 픽처에 대해 목표 검출을 진행한다.
본 공개의 실시예의 동작을 실행하기 위한 컴퓨터 프로그램 코드는 1종 이상의 프로그램 설계 언어 또는 그 조합에 의해 작성될 수 있고, 상기 프로그램 설계 언어는 Java, Smalltalk, C++ 등과 같은 객체 지향 프로그램 설계 언어를 포함하고, “C”언어 또는 유사한 프로그램 설계 언어와 같은 일반적인 절차적 프로그램 설계 언어도 더 포함할 수 있다. 프로그램 코드는 테넌트 컴퓨팅 장치에서 완전하게 실행되거나, 테넌트 장치에서 부분적으로 실행되거나, 하나의 독립적인 소프트웨어 패키지로서 실행되거나, 일부는 테넌트 컴퓨팅 장치에서 일부는 원격 컴퓨팅 장치에서 실행되거나 또는 원격 컴퓨텅 장치 또는 서버에서 완전하게 실행될 수 있다. 원격 컴퓨팅 장치의 경우에는, 원격 컴퓨팅 장치는 LAN, 또는 WAN을 포함하는 임의의 종류의 네트워크를 통해 테넌트 컴퓨팅 장치에 연결하거나 또는 외부 컴퓨팅 장치에 연결할 수 있다(예를 들면 인터넷 서버 제공자를 이용하여 인터넷을 통해 연결할 수 있다).
도면들 중의 흐름도 및 블록도는 본 공개의 각 실시예에 따른 시스템, 방법 및 컴퓨터 프로그램 제품의 구현 가능한 체계구조, 기능 및 동작을 예시한다. 여기서 흐름도 또는 블록도 중의 각 블록은 모듈, 프로그램 세그먼트, 또는 코드의 일부분을 나타낼 수 있고, 상기 모듈, 프로그램 세그먼트 또는 코드의 일부분은 규정된 논리적 기능을 구현하기 위한 하나 또는 그 이상의 실행가능한 명령을 포함한다. 또한 주의해야 할 것은, 일부 대체적인 구현에 있어서, 블록에 표시된 기능은 도면에 표시된 순서와 다른 순서로 발생할 수도 있다. 예를 들어, 순차적으로 표시된 두 개의 블록은 사실상 동시에 실행될 수 있고, 그 블록들은 경우에 따라,그것과 관련된 기능에 의존하여 역순으로 실행될 수도 있다. 또한 주의해야 할 것은, 블록도 및/또는 흐름도의 각 블록, 및 블록도 및/또는 흐름도의 블록의 조합은 규정된 기능 또는 조작에 전용되는 하드웨어를 기반으로 하는 시스템을 통해 실행되거나 또는 전용 하드웨어와 컴퓨터 명령의 조합을 이용하여 구현될 수 있다.
본 공개의 설명된 실시예와 관련된 모듈은 소프트웨어의 방식으로 구현될 수 있으며, 하드웨어의 방식으로도 구현될 수 있다. 설명된 모듈은 프로세서에 설치될 수도 있고, 예를 들면, 프로세서는 픽처 슬라이싱 구성 모듈, 모델 트레이닝 모듈 및 목표 검출 모듈을 포함한다고 설명할 수 있다. 이러한 모듈의 명칭은 특정 상황에서 상기 모듈 자체에 대해 한정을 구성하지 않는다.
이상의 설명은 본 공개의 비교적 바람직한 실시예 및 운용하는 기술적 원리에 대한 설명일 뿐이다. 해당 기술분야의 당업자는 본 공개에 관련된 발명의 범위가 상기 기술적 특징의 특정 조합으로 이루어진 기술적 방안에 한정되지 않으며, 동시에 상기 발명의 사상을 벗어나지 않는 상황에서, 상기 기술적 특징 또는 그들의 균등한 특징의 임의의 조합으로 이루어진 기타 기술적 방안, 예를 들어, 상기 특징을 본 공개의 실시예에 공개된(이에 한정되지 않음) 유사한 기능을 구비한 기술적 특징과 서로 대체하여 이루어진 기술적 방안도 포함하고 있음을 이해해야 한다.

Claims (17)

  1. 픽처 슬라이싱 구성 모듈이, 제1 트레이닝 데이터 세트 중 각 트레이닝 픽처 상의 목표 점유율을 통계함으로써, 상기 제1 트레이닝 데이터 세트 중의 적어도 하나의 전형적인 목표 점유율을 결정하는 단계;
    상기 픽처 슬라이싱 구성 모듈이, 상기 적어도 하나의 전형적인 목표 점유율을 기반으로 적어도 하나의 픽처 스케일링 사이즈를 결정하고, 상기 적어도 하나의 픽처 스케일링 사이즈에 따라 상기 제1 트레이닝 데이터 세트 중의 각 트레이닝 픽처에 대해 스케일링을 진행하는 단계;
    모델 트레이닝 모듈이, 스케일링된 각 트레이닝 픽처에 대해 슬라이싱을 진행하여, 제2 트레이닝 데이터 세트를 얻는 단계;
    상기 모델 트레이닝 모듈이, 상기 제2 트레이닝 데이터 세트를 이용하여 목표 검출 모델에 대해 트레이닝하는 단계; 및
    목표 검출 모듈이, 트레이닝된 목표 검출 모델을 이용하여 검출 대상 픽처에 대해 목표 검출을 진행하는 단계를 포함하는,
    목표 검출 방법.
  2. 제1항에 있어서,
    상기 픽처 슬라이싱 구성 모듈이, 상기 목표 검출 모델의 최적 검출 사이즈를 기반으로 상기 적어도 하나의 픽처 스케일링 사이즈를 결정하는,
    목표 검출 방법.
  3. 제1항에 있어서,
    상기 픽처 슬라이싱 구성 모듈이, 상기 적어도 하나의 픽처 스케일링 사이즈에 따라 상기 제1 트레이닝 데이터 세트 중의 각 트레이닝 픽처에 대해 스케일링을 진행하는 단계는,
    상기 픽처 슬라이싱 구성 모듈이, 상기 적어도 하나의 픽처 스케일링 사이즈 중의 임의의 하나의 픽처 스케일링 사이즈에 대해, 상기 제1 트레이닝 데이터 세트 중의 각 트레이닝 픽처를 모두 상기 픽처 스케일링 사이즈로 스케일링하는 단계를 포함하는,
    목표 검출 방법.
  4. 제1항에 있어서,
    상기 모델 트레이닝 모듈이, 스케일링된 각 트레이닝 픽처에 대해 슬라이싱을 진행하여 제2 트레이닝 데이터 세트를 얻는 단계는,
    상기 모델 트레이닝 모듈이, 상기 스케일링된 각 트레이닝 픽처에 대해 슬라이싱하여, 트레이닝 이미지 슬라이스 세트를 획득하는 단계; 및
    상기 모델 트레이닝 모듈이, 상기 제1 트레이닝 데이터 세트 중 각 트레이닝 픽처와 관련된 주석 정보를 변환함으로써, 상기 트레이닝 이미지 슬라이스 세트 중의 각 트레이닝 이미지 슬라이스와 관련된 주석 정보를 획득하는 단계를 포함하고,
    상기 모델 트레이닝 모듈이, 상기 트레이닝 이미지 슬라이스 세트와 상기 트레이닝 이미지 슬라이스 세트 중의 각 트레이닝 이미지 슬라이스와 관련된 주석 정보로 상기 제2 트레이닝 데이터 세트를 구성하는,
    목표 검출 방법.
  5. 제4항에 있어서,
    상기 모델 트레이닝 모듈이, 상기 목표 검출 모델의 입력 픽처 사이즈를 트레이닝 이미지 슬라이스 사이즈로 이용하여, 상기 스케일링된 각 트레이닝 픽처에 대해 슬라이스를 진행하는,
    목표 검출 방법.
  6. 제5항에 있어서,
    상기 모델 트레이닝 모듈이, 상기 목표 검출 모델의 입력 픽처 사이즈와 최적 검출 사이즈의 차이보다 작은 이동 스텝 사이즈를 이용하여, 상기 스케일링된 각 트레이닝 픽처에 대해 슬라이싱을 진행하는,
    목표 검출 방법.
  7. 제6항에 있어서,
    상기 모델 트레이닝 모듈이, 상기 제2 트레이닝 데이터 세트 중의 임의의 하나의 트레이닝 이미지 슬라이스에 대해, 상기 트레이닝 이미지 슬라이스와 관련된 주석 정보에서 상기 트레이닝 이미지 슬라이스 상의 불완전한 목표 검출 프레임과 관련된 좌표 정보를 제거하는 단계를 더 포함하는,
    목표 검출 방법.
  8. 제1항에 있어서,
    상기 모델 트레이닝 모듈이, 상기 제2 트레이닝 데이터 세트 중의 목표 검출 프레임이 포함된 트레이닝 이미지 슬라이스, 목표 검출 프레임이 포함되지 않은 트레이닝 이미지 슬라이스 및 이들과 관련된 주석 정보를 이용하여 상기 목표 검출 모델에 대해 트레이닝하는,
    목표 검출 방법.
  9. 제1항에 있어서,
    목표 검출 모듈이, 상기 트레이닝된 목표 검출 모델을 이용하여 상기 검출 대상 픽처에 대해 목표 검출을 진행하는 단계는,
    상기 목표 검출 모듈이, 상기 적어도 하나의 픽처 스케일링 사이즈에 따라, 상기 검출 대상 픽처에 대해 스케일링하는 단계;
    상기 목표 검출 모듈이, 상기 스케일링된 검출 대상 픽처에 대해 슬라이싱하여, 검출 대상 이미지 슬라이스 세트를 얻는 단계; 및
    상기 목표 검출 모듈이, 상기 검출 대상 이미지 슬라이스 세트를 상기 트레이닝된 목표 검출 모델에 입력하여 목표 검출을 진행하는 단계를 포함하는,
    목표 검출 방법.
  10. 제9항에 있어서,
    상기 목표 검출 모듈이, 상기 목표 검출 모델의 입력 픽처 사이즈를 검출 대상 이미지 슬라이스 사이즈로 이용하여, 상기 스케일링된 검출 대상 픽처에 대해 슬라이싱하는,
    목표 검출 방법.
  11. 제10항에 있어서,
    상기 목표 검출 모듈이, 상기 목표 검출 모델의 입력 픽처 사이즈와 최적 검출 사이즈의 차이보다 작은 이동 스텝 사이즈를 이용하여, 상기 스케일링된 검출 대상 픽처에 대해 슬라이싱하는,
    목표 검출 방법.
  12. 제11항에 있어서,
    상기 목표 검출 모듈이, 상기 검출 대상 이미지 슬라이스 세트 중의 임의의 하나의 검출 대상 픽처 슬라이스에 대해, 만약 상기 검출 대상 이미지 슬라이스 상에서 상기 검출 대상 이미지 슬라이스의 엣지와 중첩된 목표 검출 프레임이 검출되면, 상기 목표 검출 프레임을 폐기하는,
    목표 검출 방법.
  13. 제9항에 있어서,
    상기 목표 검출 모듈이, 상기 검출 대상 이미지 슬라이스 세트를 상기 트레이닝된 목표 검출 모델에 입력하여 목표 검출을 진행하는 단계는,
    상기 목표 검출 모듈이, 상기 트레이닝된 목표 검출 모델을 이용하여, 상기 검출 대상 이미지 슬라이스 세트 중의 각각의 검출 대상 이미지 슬라이스 상의 목표 검출 프레임과 관련된 좌표 정보를 얻는 단계;
    상기 목표 검출 모듈이, 상기 검출 대상 이미지 슬라이스 세트 중의 각각의 검출 대상 이미지 슬라이스 상의 목표 검출 프레임과 관련된 좌표 정보를 상기 검출 대상 픽처에 기반한 좌표 정보로 변환하는 단계를 포함하는,
    목표 검출 방법.
  14. 픽처 슬라이싱 구성 모듈, 모델 트레이닝 모듈과 목표 검출 모듈을 포함하고,
    상기 픽처 슬라이싱 구성 모듈은,
    제1 트레이닝 데이터 세트 중 각 트레이닝 픽처 상의 목표 점유율을 통계함으로써, 상기 제1 트레이닝 데이터 세트 중의 적어도 하나의 전형적인 목표 점유율을 결정하고,
    상기 적어도 하나의 전형적인 목표 점유율을 기반으로 적어도 하나의 픽처 스케일링 사이즈를 결정하고, 상기 적어도 하나의 픽처 스케일링 사이즈에 따라 상기 제1 트레이닝 데이터 세트 중의 각 트레이닝 픽처에 대해 스케일링을 진행하도록 구성되며;
    상기 모델 트레이닝 모듈은,
    스케일링된 각 트레이닝 픽처에 대해 슬라이스를 진행하여, 제2 트레이닝 데이터 세트를 얻고,
    상기 제2 트레이닝 데이터 세트를 이용하여 목표 검출 모델에 대해 트레이닝하도록 구성되며;
    상기 목표 검출 모듈은,
    트레이닝된 목표 검출 모델을 이용하여 검출 대상 픽처에 대해 목표 검출을 진행하도록 구성되는,
    목표 검출 장치.
  15. 프로세서; 및
    컴퓨터 프로그램이 저장된 메모리를 포함하고,
    상기 컴퓨터 프로그램이 상기 프로세서에 의해 실행될 때 상기 프로세서가 제1항 내지 제13항 중 어느 한 항에 따른 목표 검출 방법을 실행하는,
    컴퓨터 시스템.
  16. 컴퓨터 프로그램이 저장된 컴퓨터 판독 가능 저장 매체에 있어서,
    상기 컴퓨터 프로그램이 컴퓨터 시스템의 프로세서에 의해 실행될 때 상기 컴퓨터 시스템이 제1항 내지 제13항 중 어느 한 항에 따른 목표 검출 방법을 실행하는,
    컴퓨터 판독 가능 저장 매체.
  17. 컴퓨터 판독 가능 저장 매체에 저장된 컴퓨터 프로그램에 있어서,
    상기 컴퓨터 프로그램은 명령을 포함하고, 상기 명령이 적어도 하나의 프로세서에 의해 실행될 때 제1항 내지 제13항 중 어느 한 항에 따른 방법을 구현하는,
    컴퓨터 판독 가능 저장 매체에 저장된 컴퓨터 프로그램.
KR1020210028050A 2020-08-27 2021-03-03 목표 검출 방법 및 장치, 컴퓨터 시스템 및 판독 가능 저장 매체 KR102558704B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010878201.7A CN112001912B (zh) 2020-08-27 2020-08-27 目标检测方法和装置、计算机系统和可读存储介质
CN202010878201.7 2020-08-27

Publications (2)

Publication Number Publication Date
KR20220027739A KR20220027739A (ko) 2022-03-08
KR102558704B1 true KR102558704B1 (ko) 2023-07-21

Family

ID=73472063

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210028050A KR102558704B1 (ko) 2020-08-27 2021-03-03 목표 검출 방법 및 장치, 컴퓨터 시스템 및 판독 가능 저장 매체

Country Status (5)

Country Link
US (1) US20220067375A1 (ko)
EP (1) EP3819823B1 (ko)
JP (1) JP7079358B2 (ko)
KR (1) KR102558704B1 (ko)
CN (1) CN112001912B (ko)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112614572B (zh) * 2020-12-28 2023-02-21 深圳开立生物医疗科技股份有限公司 一种病灶标记方法、装置、图像处理设备及医疗系统
CN112906611B (zh) * 2021-03-05 2024-04-26 新疆爱华盈通信息技术有限公司 一种井盖检测方法、装置、电子设备及存储介质
CN112927247A (zh) * 2021-03-08 2021-06-08 常州微亿智造科技有限公司 基于目标检测的切图方法、切图装置和存储介质
CN113191451B (zh) * 2021-05-21 2024-04-09 北京文安智能技术股份有限公司 图像数据集处理方法和目标检测模型训练方法
CN113870196A (zh) * 2021-09-10 2021-12-31 苏州浪潮智能科技有限公司 一种基于锚点切图的图像处理方法、装置、设备和介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107341517B (zh) 2017-07-07 2020-08-11 哈尔滨工业大学 基于深度学习层级间特征融合的多尺度小物体检测方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109934242A (zh) * 2017-12-15 2019-06-25 北京京东尚科信息技术有限公司 图片识别方法和装置
CN110555808B (zh) * 2018-05-31 2022-05-31 杭州海康威视数字技术股份有限公司 一种图像处理方法、装置、设备及机器可读存储介质
CN109508673A (zh) 2018-11-13 2019-03-22 大连理工大学 一种基于棒状像素的交通场景障碍检测与识别方法
US10509987B1 (en) * 2019-01-22 2019-12-17 StradVision, Inc. Learning method and learning device for object detector based on reconfigurable network for optimizing customers' requirements such as key performance index using target object estimating network and target object merging network, and testing method and testing device using the same
CN110826566B (zh) * 2019-11-01 2022-03-01 北京环境特性研究所 一种基于深度学习的目标切片提取方法
CN111027547B (zh) 2019-12-06 2022-08-09 南京大学 一种针对二维图像中的多尺度多形态目标的自动检测方法
CN111582012A (zh) * 2019-12-24 2020-08-25 珠海大横琴科技发展有限公司 一种检测小目标船只方法及装置
US11386645B2 (en) * 2020-07-01 2022-07-12 International Business Machines Corporation Dataset driven custom learning for multi-scale object detection

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107341517B (zh) 2017-07-07 2020-08-11 哈尔滨工业大学 基于深度学习层级间特征融合的多尺度小物体检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Li Liu et al. "Deep Learning for Generic Object Detection: A Survey" arxiv.org, Cornell University, 201 Olin Library Cornell University Ithaca, NY 14853, 2018.09.06., XP081467102.
Singh Bharat et al. "An Analysis of Scale Invariance in Object Detection - SNIP" 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, IEEE, 2018.06.18., p 3578-3587, XP033476328.
Yang Fan et al. Exploit All the Layers: Fast and Accurate CNN Object Detector with Scale Dependent Pooling and Cascaded Rejection Classifiers. CVPR(2016). 2016.06.27. pages 2129-2137.

Also Published As

Publication number Publication date
JP2022039921A (ja) 2022-03-10
EP3819823A3 (en) 2021-09-29
EP3819823B1 (en) 2023-04-26
JP7079358B2 (ja) 2022-06-01
US20220067375A1 (en) 2022-03-03
EP3819823A2 (en) 2021-05-12
CN112001912B (zh) 2024-04-05
CN112001912A (zh) 2020-11-27
KR20220027739A (ko) 2022-03-08

Similar Documents

Publication Publication Date Title
KR102558704B1 (ko) 목표 검출 방법 및 장치, 컴퓨터 시스템 및 판독 가능 저장 매체
US10810438B2 (en) Setting apparatus, output method, and non-transitory computer-readable storage medium
EP3467707A1 (en) System and method for deep learning based hand gesture recognition in first person view
CN110008806B (zh) 信息处理装置、学习处理方法、学习装置及物体识别装置
JP7107354B2 (ja) 情報処理装置、情報処理方法およびプログラム
US20070126868A1 (en) Image processing apparatus, image processing system, and recording medium for programs therefor
KR20210107667A (ko) 이미지 분할 방법 및 장치, 전자 기기 및 저장 매체
US9807310B2 (en) Field display system, field display method, and field display program
JP2012243161A (ja) 画像処理装置、画像処理方法
CN110796664B (zh) 图像处理方法、装置、电子设备及计算机可读存储介质
JP2008009849A (ja) 人物追跡装置
JP2016187162A (ja) 情報処理装置、情報処理方法、及びプログラム
US20220044027A1 (en) Photography system
CN113439227A (zh) 放大图像的捕获和存储
JP6991045B2 (ja) 画像処理装置、画像処理装置の制御方法
CN111310595B (zh) 用于生成信息的方法和装置
CN104104902A (zh) 云台方向故障检测方法及装置
KR20220151130A (ko) 영상 처리 방법, 장치, 전자 기기, 저장 매체 및 컴퓨터 프로그램
JPWO2020003764A1 (ja) 画像処理装置、移動装置、および方法、並びにプログラム
JP2013062688A (ja) 画像処理装置、画像処理方法
CN111968158A (zh) 一种基于核相关滤波和结构相似性的视频抖动检测方法
CN115410232B (zh) 板书抓拍方法、装置、电子设备及可读存储介质
JP7252775B2 (ja) 映像解析支援装置及び方法
WO2021014873A1 (ja) 監視装置、監視方法、及びコンピュータ読み取り可能な記録媒体
CN117197756B (zh) 隐患区域入侵检测方法、装置、设备和存储介质

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant