KR102558704B1 - 목표 검출 방법 및 장치, 컴퓨터 시스템 및 판독 가능 저장 매체 - Google Patents
목표 검출 방법 및 장치, 컴퓨터 시스템 및 판독 가능 저장 매체 Download PDFInfo
- Publication number
- KR102558704B1 KR102558704B1 KR1020210028050A KR20210028050A KR102558704B1 KR 102558704 B1 KR102558704 B1 KR 102558704B1 KR 1020210028050 A KR1020210028050 A KR 1020210028050A KR 20210028050 A KR20210028050 A KR 20210028050A KR 102558704 B1 KR102558704 B1 KR 102558704B1
- Authority
- KR
- South Korea
- Prior art keywords
- target
- training
- picture
- target detection
- detection
- Prior art date
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 279
- 238000012549 training Methods 0.000 claims abstract description 262
- 238000000034 method Methods 0.000 claims abstract description 14
- 238000004590 computer program Methods 0.000 claims description 18
- 230000001131 transforming effect Effects 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims 1
- 238000012545 processing Methods 0.000 abstract description 6
- 238000010586 diagram Methods 0.000 description 14
- 230000000694 effects Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 229910000831 Steel Inorganic materials 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 229910000679 solder Inorganic materials 0.000 description 1
- 239000010959 steel Substances 0.000 description 1
- 238000003466 welding Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0004—Industrial image inspection
- G06T7/0008—Industrial image inspection checking presence/absence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4084—Scaling of whole images or parts thereof, e.g. expanding or contracting in the transform domain, e.g. fast Fourier transform [FFT] domain scaling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/52—Scale-space analysis, e.g. wavelet analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/13—Satellite images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/20—Scenes; Scene-specific elements in augmented reality scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/66—Trinkets, e.g. shirt buttons or jewellery items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/11—Technique with transformation invariance effect
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Remote Sensing (AREA)
- Astronomy & Astrophysics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
본 공개의 실시예는 컴퓨터 비전 및 이미지 처리 분야에 관련된, 목표 검출 방법 및 장치, 컴퓨터 시스템 및 판독 가능 저장 매체를 공개한다. 상기 목표 검출 방법은, 제1 트레이닝 데이터 세트 중 각 트레이닝 픽처 상의 목표 점유율을 통계함으로써, 제1 트레이닝 데이터 세트 중의 적어도 하나의 전형적인 목표 점유율을 결정하는 단계; 적어도 하나의 전형적인 목표 점유율을 기반으로 적어도 하나의 픽처 스케일링 사이즈를 결정하고, 적어도 하나의 픽처 스케일링 사이즈에 따라 제1 트레이닝 데이터 세트 중의 각 트레이닝 픽처에 대해 스케일링을 진행하는 단계; 스케일링된 각 트레이닝 픽처에 대해 슬라이싱을 진행하여, 제2 트레이닝 데이터 세트를 얻는 단계; 제2 트레이닝 데이터 세트를 이용하여 목표 검출 모델에 대해 트레이닝하는 단계; 및 트레이닝된 목표 검출 모델을 이용하여 검출 대상 픽처에 대해 목표 검출을 진행하는 단계를 포함한다. 본 공개의 실시예의 목표 검출 방법은 수동 개입없이 매우 작은 목표에 대한 검출 임무를 완성할 수 있다.
Description
본 공개는 컴퓨터 비전과 이미지 처리 분야에 관한 것으로, 더욱 구체적으로는 목표 검출 방법 및 장치, 컴퓨터 시스템 및 판독 가능 저장 매체에 관한 것이다.
최근, 목표 검출로 대표되는 컴퓨터 비전 기술은 놀라운 발전을 이루었다. 목표 검출 기술의 응용은 더 많은 산업에서 더 나은 체험, 더 높은 효율을 가져왔고, 동시에 비용도 절감하였다. 예를 들면, 자동차의 자율 주행 분야는 목표 검출 기술 분야를 이용하여 보행자, 차량, 장애물을 검출하므로, 자동차 주행의 안전성 및 편리성을 향상시킬 수 있다. 보안 모니터링 분야는 목표 검출 기술을 이용하여 특정인물 또는 물체의 출현, 이동 등 정보를 모니터링하며, 의료 진단 분야는 목표 검출 기술을 이용하여 질병 부위 발견, 세포 수 계산 등에 이용될 수 있다
그러나 일부 산업 또는 분야에서, 이미지 수집 영역에 비해 목표가 매우 작아 일반적으로 1:100~1:1000범위 내이며, 이는 현재의 목표 검출 기술을 사용하여 목표 수집 영역을 촬영하는 픽처에서 매우 작은 목표를 검출하는 것은 매우 어렵거나 심지어 거의 불가능하게 한다. 예를 들면 공업 분야에서, 용접된 강판의 X-ray스캔 이미지에서 냉납을 탐지하거나 또는 핸드폰 유리 커버의 스캔 이미지에서 결함을 검출해야 할 경우, 전체 사진에서 용접 결함의 점유율이 매우 작아, 현재의 목표 검출 기술을 직접 사용하여 이러한 매우 작은 목표의 검출을 구현하는 것은 불가능하다.
본 공개의 제1 측면에 따르면, 본 공개의 실시예는 제1 트레이닝 데이터 세트 중 각 트레이닝 픽처 상의 목표 점유율을 통계함으로써, 제1 트레이닝 데이터 세트 중의 적어도 하나의 전형적인 목표 점유율을 결정하는 단계; 적어도 하나의 전형적인 목표 점유율을 기반으로 적어도 하나의 픽처 스케일링 사이즈를 결정하고, 적어도 하나의 픽처 스케일링 사이즈에 따라 제1 트레이닝 데이터 세트 중의 각 트레이닝 픽처에 대해 스케일링을 진행하는 단계; 스케일링된 각 트레이닝 픽처에 대해 슬라이싱을 진행하여, 제2 트레이닝 데이터 세트를 얻는 단계; 제2 트레이닝 데이터 세트를 이용하여 목표 검출 모델에 대해 트레이닝하는 단계; 및 트레이닝된 목표 검출 모델을 이용하여 검출 대상 픽처에 대해 목표 검출을 진행하는 단계를 포함하는, 목표 검출 방법을 공개하였다.
본 공개의 제2 측면에 따르면, 본 공개의 실시예는 픽처 슬라이싱 구성 모듈, 모델 트레이닝 모듈, 목표 검출 모듈을 포함하는 목표 검출 장치를 공개하였고, 상기 픽처 슬라이싱 구성 모듈은, 제1 트레이닝 데이터 세트 중 각 트레이닝 픽처 상의 목표 점유율을 통계함으로써, 제1 트레이닝 데이터 세트 중의 적어도 하나의 전형적인 목표 점유율을 결정하고, 적어도 하나의 전형적인 목표 점유율을 기반으로 적어도 하나의 픽처 스케일링 사이즈를 결정하고, 적어도 하나의 픽처 스케일링 사이즈에 따라 제1 트레이닝 데이터 세트 중의 각 트레이닝 픽처에 대해 스케일링을 진행하도록 구성되며; 상기 모델 트레이닝 모듈은, 스케일링된 각 트레이닝 픽처에 대해 슬라이스를 진행하여 제2 트레이닝 데이터 세트를 얻고, 제2 트레이닝 데이터 세트를 이용하여 목표 검출 모델에 대해 트레이닝하도록 구성되며; 상기 목표 검출 모듈은, 트레이닝된 목표 검출 모델을 이용하여 검출 대상 픽처에 대해 목표 검출을 진행하도록 구성된다.
본 공개의 제3 측면에 따르면, 본 공개의 실시예는 프로세서; 및 컴퓨터 프로그램이 저장된 메모리를 포함하고, 상기 컴퓨터 프로그램이 프로세서에 의해 실행될 때 상기 목표 검출 방법을 실행하는 컴퓨터 시스템을 공개하였다.
본 공개의 제4 측면에 따르면, 본 공개의 실시예는 상기 컴퓨터 프로그램이 컴퓨터 시스템의 프로세서에 의해 실행될 때 컴퓨터 시스템이 상기 목표 검출 방법을 실행하는, 컴퓨터 판독 가능 저장 매체를 공개하였다.
본 공개의 제5 측면에 따르면, 본 공개의 실시예는 컴퓨터 판독 가능 매체에 저장된 컴퓨터 프로그램을 공개하였고, 상기 컴퓨터 프로그램은 명령을 포함하고, 상기 명령이 적어도 하나의 프로세서에 의해 실행될 때 상기 목표 검출 방법을 구현한다.
본 공개의 하나 또는 복수의 실시예에 따르면, 제1 트레이닝 데이터 세트 중의 목표 점유율을 통계함으로써 제1 트레이닝 데이터 세트 중의 적어도 하나의 전형적인 목표 점유율을 결정하고, 적어도 하나의 전형적인 목표 점유율을 기반으로 적어도 하나의 픽처 스케일링 사이즈를 결정하고, 적어도 하나의 픽처 스케일링 사이즈에 따라 제1 트레이닝 데이터 세트 중의 각 트레이닝 픽처에 대해 스케일링을 진행하며, 스케일링된 각 트레이닝 픽처에 대해 슬라이싱을 진행하여, 제2 트레이닝 데이터 세트를 얻고, 제2 트레이닝 데이터 세트를 이용하여 목표 검출 모델에 대해 트레이닝하여, 트레이닝된 목표 검출 모델은 검출 대상 픽처 점유율에 대해 목표가 매우 작은 상황에서도 검출 대상 픽처 상에서 목표를 정확하게 검출할 수 있으므로, 수동 개입없이 작은 목표의 검출 임무를 고품질로 완성할 수 있다.
첨부된 도면은 실시예를 예시적으로 나타내고 명세서의 일부를 구성하며, 명세서의 문자 설명과 함께 실시예의 예시적인 실시 형태를 해석하기 위한 것이다. 도시된 실시예는 예시의 목적으로만 사용되고, 청구항의 범위를 한정하지 않는다. 모든 도면에서, 동일한 도면 부호는 유사하지만 반드시 동일하지는 않은 요소를 가리킨다.
도 1은 본 공개의 실시예에 따른 목표 검출 방법을 나타낸 흐름도이다.
도 2a는 스케일링된 트레이닝 픽처를 개략적으로 나타낸 개략도이다.
도 2b는 도 2a에 도시된 스케일링된 트레이닝 픽처에 대해 슬라이싱을 진행하는 것을 나타낸 개략도이다.
도 3은 도1에 도시한 목표 검출 방법 중의 단계S105를 나타낸 흐름도이다.
도 4는 본 공개의 실시예에 따른 목표 검출 장치를 나타낸 구조 블록도이다.
도 5는 본 공개의 실시예를 구현하는 예시적 컴퓨터 시스템을 나타낸 구조 블록도이다.
도 1은 본 공개의 실시예에 따른 목표 검출 방법을 나타낸 흐름도이다.
도 2a는 스케일링된 트레이닝 픽처를 개략적으로 나타낸 개략도이다.
도 2b는 도 2a에 도시된 스케일링된 트레이닝 픽처에 대해 슬라이싱을 진행하는 것을 나타낸 개략도이다.
도 3은 도1에 도시한 목표 검출 방법 중의 단계S105를 나타낸 흐름도이다.
도 4는 본 공개의 실시예에 따른 목표 검출 장치를 나타낸 구조 블록도이다.
도 5는 본 공개의 실시예를 구현하는 예시적 컴퓨터 시스템을 나타낸 구조 블록도이다.
이하에서는 도면과 실시예를 결합하여 본 공개에 대해 추가적으로 자세히 설명한다. 여기서 서술한 구체적인 실시예는 관련 발명을 해석하기 위한 것일 뿐, 상기 발명을 한정하는 것은 아니다. 또한, 추가로 설명해야 할 것은, 설명의 편의를 위해, 관련 발명과 관련된 부분만을 도면에 도시하였다.
설명해야 할 것은, 모순되지 않는 한, 본 공개의 실시예 및 실시예 중의 특징은 서로 결합될 수 있다. 문맥상, 별도로 명백히 표시하지 않은 한, 요소의 수를 특별히 한정하지 않으면, 상기 요소는 하나 또는 다수일 수 있다. 또한, 본 공개에서 사용되는 단계 또는 기능 모듈의 번호는 단지 각 단계 또는 기능 모듈을 식별하기 위한 것일 뿐, 각 단계의 실행 순서 또는 각 기능 모듈 상호간의 연결 관계를 한정하는 것이 아니다.
현재, 작은 목표에 대한 검출 방안은 아래와 같이 몇가지 있다:1) 특징 피라미드 네트워크(FPN)층을 이용하여, 입력된 픽처상의 특징에 대해 다중 스케일 융합을 진행함으로써 작은 목표에 대한 검출 효과를 개선하거나; 2)입력된 픽처에 대해 서로 다른 스케일로 확대하고, 서로 다른 확대 스케일의 입력 픽처에 대해 목표 검출을 진행한 후, 서로 다른 확대 스케일의 입력 픽처의 목표 검출 결과를 합병하거나; 3)트레이닝된 픽처에 대해 슬라이싱하여 트레이닝 픽처와 관련된 주석 정보에 대해 수정하여 트레이닝 이미지 슬라이스 및 이와 관련된 주석 정보를 얻고, 트레이닝 이미지 슬라이스 및 이와 관련된 주석 정보를 이용하여 목표 검출 모델을 트레이닝하고, 트레이닝된 목표 검출 모델을 이용하여 목표 검출을 진행한다.
이상 몇가지 방안은 아래와 같은 문제점이 존재한다: 방안1) 목표 점유율이 1:10인 이러한 등급의 작은 목표에서만 검출 효과를 개선할 수 있으며, 예를 들면 목표 점유율이 1:100인 매우 작은 목표에 대한 검출에는 적용할 수 없고, 방안2) 목표의 사이즈를 상응하게 증가시킬 수 있으나, 그래픽 프로세서(GPU)의 메모리 제한으로 인해, 목표 검출 모델의 입력 픽처의 사이즈는 일반적으로 2000픽셀에 불과하므로, 입력된 픽처를 5000픽셀로 확대, 또는 10000픽셀로 확대해야 하는 매우 작은 목표에 대한 검출에는 확실히 적합하지 않으며; 방안3) 다른 트레이닝 데이터 세트에 대해 다른 트레이닝 이미지 슬라이스 사이즈를 수동으로 선택하고, 트레이닝된 목표 검출 모델은 검출 대상 이미지에 대해 전체적으로 목표 검출을 진행하므로, 매우 작은 목표에 대한 검출에는 적합하지 않다.
현재의 작은 목표에 대한 검출 방안은 목표 점유율이 매우 낮은 매우 작은 목표에 대한 검출 효과가 매우 낮고, 또한 수동 개입이 없이 목표 검출 모델을 트레이닝하여 매우 작은 목표에 대한 검출 임무를 고품질로 완성하는 것은 불가능하다.
현재의 작은 목표를 검출하는 방안에 존재하는 상기 문제를 감안하여, 본 공개는 목표 검출 방법 및 장치를 제공함으로써, 수동 개입 없이 매우 작은 목표에 대한 검출 임무를 고품질로 완성할 수 있다. 본 공개의 실시예에 따른 목표 검출 방법 및 장치는 예를 들면 산업 품질 검사, 농업 항공 사진등 장면에 응용할 수 있다. 이하 도면과 결합하여, 본 공개의 실시예에 따른 목표 검출 방법 및 장치를 상세히 설명한다.
도 1은 본 공개의 실시예에 따른 목표 검출 방법(100)을 나타낸 흐름도이다. 도 1에 도시한 바와 같이, 목표 검출 방법(100)은, 제1 트레이닝 데이터 세트 중 각 트레이닝 픽처 상의 목표 점유율을 통계함으로써, 제1 트레이닝 데이터 세트 중의 적어도 하나의 전형적인 목표 점유율을 결정하는 단계(S101); 적어도 하나의 전형적인 목표 점유율을 기반으로 적어도 하나의 픽처 스케일링 사이즈를 결정하고 적어도 하나의 픽처 스케일링 사이즈에 따라 제1 트레이닝 데이터 세트 중의 각 트레이닝 픽처에 대해 스케일링을 진행하는 단계(S102); 스케일링된 각 트레이닝 픽처에 대해 슬라이싱을 진행하여, 제2 트레이닝 데이터 세트를 얻는 단계(S103); 제2 트레이닝 데이터 세트를 이용하여 목표 검출 모델에 대해 트레이닝하는 단계(S104); 및 트레이닝된 목표 검출 모델을 이용하여 검출 대상 픽처에 대해 목표 검출을 진행하는 단계를(S105)를 포함할 수 있다.
본 공개의 실시예에 따른 목표 검출 방법은 제1 트레이닝 데이터 세트 중의 전형적인 목표 점유율을 기반으로 적어도 하나의 픽처 스케일링 사이즈를 적합하게 결정하고, 적어도 하나의 픽처 스케일링 사이즈에 따라 제1 트레이닝 데이터 세트 중의 트레이닝 픽처에 대해 스케일링을 진행하고, 스케일링된 각 트레이닝 픽처에 대해 슬라이싱을 진행하여 제2 트레이닝 데이터 세트를 얻고, 제2 트레이닝 데이터 세트를 이용하여 목표 검출 모델에 대해 트레이닝함으로써, 트레이닝된 목표 검출 모델은 목표가 검출 대상 픽처에 대한 점유율이 매우 작은 상황에서도 검출 대상 픽처상에서 목표를 정확하게 검출할 수 있으므로, 수동 개입없이도 매우 작은 목표에 대한 검출 임무를 고품질로 완성할 수 있다.
여기서, 제1 트레이닝 데이터 세트는 복수의 트레이닝 픽처와 복수의 트레이닝 픽처와 관련된 각각의 주석 정보를 포함한다. 임의의 하나의 트레이닝 픽처의 경우, 상기 트레이닝 픽처상에 하나 또는 복수의 목표가 존재할 수 있으며, 임의의 하나의 목표의 목표 점유율이란 상기 목표의 목표 검출 프레임의 크기가 상기 트레이닝 픽처의 전체 사이즈에 대한 비율을 말하며, 상기 트레이닝 픽처와 관련된 주석 정보는 상기 트레이닝 픽처상의 각 목표 검출 프레임과 관련된 좌표 정보를 포함한다.
일부 실시예에서, 제1 트레이닝 데이터 세트 중의 각 트레이닝 픽처 상의 모든 목표 점유율을 통해 클러스터링을 진행함으로써, 제1 트레이닝 데이터 세트 중의 적어도 하나의 전형적인 목표 점유율을 얻는다. 예를 들면, 임의의 하나의 트레이닝 데이터 세트(A)의 경우, 트레이닝 데이터 세트(A) 중의 각 트레이닝 픽처 상의 모든 목표 점유율에 대해 클러스터링을 진행함으로써, 트레이닝 데이터 세트(A) 중의 3개의 전형적인 점유율(R1, R2 및 R3)을 얻을 수 있다.
일부 실시예에서, 목표 검출 모델의 트레이닝을 용이하도록 하기 위해, 제 1 트레이닝 데이터 세트 중의 각 트레이닝 픽처상의 대부분의 목표 검출 프레임의 사이즈를 어느 고정 사이즈에 근접하게 스케일링한다. 따라서, 제1 트레이닝 데이터 세트 중의 적어도 하나의 전형적인 목표 점유율과 상기 고정 사이즈를 기반으로 적어도 하나의 픽처 스케일링 사이즈를 결정할 수 있다. 예를 들면, 트레이닝 데이터 세트(A)에 대하여, 각 트레이닝 픽처 상의 대부분의 목표 검출 프레임의 크기를 고정 사이즈(T0)로 스케일링한다고 가정하면, 고정 사이즈(T0)를 트레이닝 데이터 세트(A)의 3개의 전형적인 목표 점유율(R1, R2 및 R3)로 나누어 3개의 픽처 스케일링 사이즈(, , 및 )를 결정할 수 있다.
일부 실시예에서, 목표 검출 모델의 트레이닝 효과를 향상시키기 위해, 목표 검출 모델의 최적 검출 사이즈에 기반하여 적어도 하나의 픽처 스케일링 사이즈를 추가로 결정할 수 있다. 다시 말해, 제1 트레이닝 데이터 세트 중의 적어도 하나의 전형적인 점유율과 목표 검출 모델의 최적 검출 사이즈를 기반으로, 적어도 하나의 픽처 스케일링 사이즈를 결정함으로써, 제1 트레이닝 데이터 세트 중의 각 트레이닝 픽처 상의 대부분의 목표 검출 프레임의 사이즈를 목표 검출 모델의 최적 검출 사이즈에 근접하게 스케일링한다. 예를 들면, 트레이닝 데이터 세트(A)에 대하여, 목표 검출 모델의 최적 검출 사이즈가 T라고 가정하면, 목표 검출 모델의 최적 검출 사이즈(T)를 트레이닝 데이터 세트(A) 중의 전형적인 점유율(R1, R2 및 R3)로 나누어, 3개의 픽처 스케일링 사이즈(, , 및 )를 결정할 수 있다.
일부 실시예에서, 적어도 하나의 픽쳐 스케일링 사이즈에 따라 제1 트레이닝 데이터 세트 중의 각 트레이닝 픽처에 대해 스케일링을 진행하는 것은, 적어도 하나의 픽처 스케일링 사이즈 중의 임의의 하나의 픽처 스케일링 사이즈에 대하여, 제1 트레이닝 데이터 세트 중의 각 트레이닝 픽처를 모두 상기 픽처 스케일링 사이즈로 스케일링하는 것을 포함한다. 예를 들면, 트레이닝 데이터 세트(A)에 대하여, 트레이닝 데이터 세트(A) 중의 각 트레이닝 이미지를 픽처 스케일링 사이즈(, , )에 따라 3회 스케일링하여, 트레이닝 데이터 세트(A) 중의 각 트레이닝 픽처의 대부분의 목표 검출 프레임이 모두 목표 검출 모델의 최적 검출 사이즈(T)에 근접하게 스케일링 되도록 할 수 있다.
또는 일부 실시예에서, 적어도 하나의 픽쳐 스케일링 사이즈에 따라 제1 트레이닝 데이터 세트 중의 각 트레이닝 픽처에 대해 스케일링을 진행하는 것은, 제1 트레이닝 데이터 세트 중의 적어도 하나의 전형적인 목표 점유율에 따라 제1 트레이닝 데이터 세트 중의 트레이닝 픽처를 적어도 하나의 트레이닝 픽처 그룹으로 분할하고, 각 트레이닝 픽처 그룹중의 트레이닝 픽처를 상응하는 픽처 스케일링 사이즈로 스케일링하는 것을 포함할 수 있다. 예를 들면, 트레이닝 데이터 세트(A)에 대하여, 트레이닝 데이터 세트(A) 중의 전형적인 점유율(R1, R2 및 R3)에 따라 트레이닝 데이터 세트(A) 중의 트레이닝 픽처를 A1, A2 및 A3 3개의 트레이닝 픽처 그룹으로 나눌 수 있고, A1, A2 및 A3 3개의 트레이닝 픽처 그룹중의 트레이닝 픽처를 각각 3개의 픽처 스케일링 사이즈(, , 및 )로 스케일링한다. 트레이닝 데이터 세트(A) 중의 각 트레이닝 픽처를 픽처 스케일링 사이즈(, , 및 )에 따라 3회 스케일링한 것과 비교하면, 본 실시예의 처리 효율은 상대적으로 높으나, 트레이닝 효과는 약간 나쁘다.
매우 작은 목표에 대해 검출을 진행해야 하는 응용 장면에서, 제1 트레이닝 데이터 세트 중의 전형적인 점유율은 예를 들면 1:100 내지 1:1000 범위 내이며, 각 스케일링된 트레이닝 픽처의 사이즈가 매우 커, 이는 이미지 프로세서의 메모리가 부족한 문제를 일으킨다. 따라서, 각 스케일링된 트레이닝 픽처에 대해 슬라이싱을 해야 한다. 일부 실시예에서, 스케일링된 각 트레이닝 픽처에 대해 슬라이싱을 진행하여 제2 트레이닝 데이터 세트를 얻는 단계는, 스케일링된 각 트레이닝 픽처에 대해 슬라이싱하여 트레이닝 이미지 슬라이스 세트를 획득하는 단계; 및 제1 트레이닝 데이터 세트 중 각 트레이닝 픽처와 관련된 주석 정보를 변환함으로써 트레이닝 이미지 슬라이스 세트 중의 각 트레이닝 이미지 슬라이스와 관련된 주석 정보를 획득하는 단계를 포함하고, 그 중, 트레이닝 이미지 슬라이스 세트와 트레이닝 이미지 슬라이스 세트 중의 각 트레이닝 이미지 슬라이스에 관련된 주석 정보로 상기 제2 트레이닝 데이터 세트를 구성한다. 제2 트레이닝 데이터 세트를 기반으로 목표 검출 모델에 대해 트레이닝을 진행하여, 이미지 프로세서의 메모리가 부족한 문제를 방지함과 동시에, 목표 검출 모델의 매우 작은 목표에 대한 검출 능력을 향상시킬 수 있다.
여기서, 제1 트레이닝 데이터 세트 중 각 트레이닝 픽처와 관련된 주석 정보를 변환하는 것은 제1 트레이닝 데이터 세트 중 각 트레이닝 이미지 슬라이스 상의 목표 검출 프레임과 관련된 좌표 정보에 대해 변환하는 것을 말한다. 즉, 제1 트레이닝 데이터 세트 중 임의의 하나의 트레이닝 픽처 상의 임의의 하나의 목표 검출 프레임에 대해, 상기 목표 검출 프레임과 관련된 좌표 정보를 상기 트레이닝 픽처에 기반한 좌표 정보로부터 상기 목표 검출 프레임을 포함한 트레이닝 이미지 슬라이스에 기반한 좌표 정보로 변환하고, 그 중, 상기 트레이닝 이미지 슬라이스는 상기 트레이닝 픽처에 대해 슬라이싱하여 얻는다.
일부 실시예에서, 목표 검출 모델의 입력 픽처 사이즈를 트레이닝 이미지 슬라이스 사이즈로 이용하여, 스케일링된 각 트레이닝 픽처에 대해 슬라이스를 진행할 수 있다. 즉, 트레이닝 이미지 슬라이스 사이즈를 수동으로 설정할 필요 없이, 목표 검출 모델의 입력 픽처 사이즈를 직접 이용하여 스케일링된 각 트레이닝 픽처에 대해 슬라이싱할 수 있다.
일부 실시예에서, 목표 검출 모델의 입력 픽처 사이즈를 트레이닝 이미지 슬라이스 사이즈로 이용하는 경우, 목표 검출 모델의 입력 픽처 사이즈와 최적 검출 사이즈의 차이보다 작은 이동 스텝 사이즈를 이용하여, 스케일링된 각 트레이닝 픽처에 대해 슬라이싱을 진행할 수 있다. 이로써, 스케일링된 각 트레이닝 픽처상의 각 목표 검출 프레임이 적어도 하나의 트레이닝 이미지 슬라이스에 완전하게 나타날 수 있도록 보장할 수 있다.
예를 들어, 목표 검출 모델의 입력 픽처 사이즈가 I이고, 최적 검출 사이즈를 T라고 가정하면, 트레이닝 이미지 슬라이스 사이즈를 I로 설정하고, 이동 스텝 사이즈S를 (즉, , 예를 들면, )보다 작게 설정한다. 도2a는 스케일링된 트레이닝 픽처를 개략적으로 나타낸 개략도이다. 도 2b는 도 2a에 도시된 스케일링된 트레이닝 픽처에 대해 슬라이싱을 진행하는 것을 나타낸 개략도이다. 도 2a와 도 2b에 도시한 바와 같이, 트레이닝 이미지 슬라이스 사이즈가 I이고, 이동 스텝 사이즈가 S인 경우, 사이즈가 I×I 인 슬라이딩 윈도우를 스케일링된 트레이닝 픽처의 좌측 상부각 정점에서부터 각각 가로축 방향 및 세로축 방향을 따라 슬라이딩시키는 것으로 스케일링된 트레이닝 픽처에 대해 슬라이싱을 진행하고, 그 중, 슬라이딩 윈도우가 매회 이동하는 거리, 즉 이동 스텝 사이즈는 S이며, 슬라이딩 윈도우가 슬라이딩 할 때마다 하나의 트레이닝 이미지 픽처, 예를 들면 트레이닝 이미지 픽처 Q와 Q1 를 얻을 수 있다. 이러한 상황에서, 더 많은 트레이닝 이미지 슬라이스를 얻기 위해, 이동 스텝 사이즈S를 적절히 감소시킬 수 있다.
일부 실시예에서, 목표 검출 모델의 입력 픽처 사이즈를 트레이닝 이미지 슬라이스 사이즈로 이용하고, 목표 검출 모델의 입력 픽처 사이즈와 최적 검출 사이즈의 차이보다 작은 이동 스텝 사이즈를 이용하여 스케일링된 각 트레이닝 픽처에 대해 슬라이싱을 진행하는 경우, 스케일링된 각 트레이닝 픽처상의 각 목표 검출 프레임은 모두 적어도 하나의 트레이닝 이미지 슬라이스에 완전히 나타날 수 있다. 트레이닝 이미지 슬라이스 사이의 중첩 영역의 다중 검출 상황을 줄이기 위해, 제2 트레이닝 데이터 세트 중의 임의의 하나의 트레이닝 이미지 슬라이스에 대해, 상기 트레이닝 이미지 슬라이스와 관련된 주석 정보로부터 상기 트레이닝 이미지 슬라이스 상의 불완전한 목표 검출 프레임과 관련된 좌표 정보를 제거할 수 있다. 예를 들면, 도 2b에 도시한 바와 같이, 목표 검출 프레임(a1)은 트레이닝 이미지 슬라이스(Q)에서 불완전하므로, 트레이닝 이미지 슬라이스(Q)와 관련된 주석 정보에서 목표 검출 프레임(a1)과 관련된 좌표 정보를 제거할 수 있다. 반대로, 목표 검출 프레임(a1)이 트레이닝 이미지 슬라이스(Q1)에 완전하게 나타나므로, 트레이닝 이미지 슬라이스(Q1)와 관련된 좌표 정보에서 목표 검출 프레임(a1)과 관련된 좌표 정보를 유지한다.
일부 실시예에서, 제2 트레이닝 데이터 세트와 각 트레이닝 이미지 슬라이스와 관련된 주석 정보에서 그 사이즈와 목표 검출 모델의 최적 검출 사이즈 차이가 비교적 큰 목표 검출 프레임에 관련된 좌표 정보를 제거하여, 이들 목표 검출 프레임이 목표 검출 모델의 트레이닝에 참여하지 않도록 한다. 이로써, 목표 검출 모델의 트레이닝 효율을 향상시킴과 동시에 목표 검출 모델의 트레이닝 효과를 향상시킬 수 있다.
일부 실시예에서, 매우 작은 목표에 대한 검출이 필요한 응용 장면에서, 제1 트레이닝 데이트 세터 중의 각 트레이닝 픽처상의 목표 점유율이 매우 작고, 각 트레이닝 픽처의 대부분의 영역은 모두 목표 검출 프레임의 배경 영역을 포함하지 않아서, 만약 목표 검출 프레임을 포함하는 트레이닝 이미지 슬라이스만을 사용하여 목표 검출 모델에 대해 트레이닝하면, 트레이닝된 목표 검출 모델이 후속의 검출 대상 픽처의 배경 영역에 대해 검출할 때 매우 많은 잘못된 검출이 발생하게 된다. 이러한 상황의 발생을 방지하기 위해, 제2 트레이닝 데이터 세트 중 목표 검출 프레임을 포함하는 트레이닝 이미지 슬라이스, 목표 검출 프레임을 포함하지 않는 트레이닝 이미지 슬라이스, 및 이들과 관련된 주석 정보를 이용하여 목표 검출 모델에 대해 트레이닝을 진행할 수 있다. 이로써, 목표 검출 모델의 목표 검출 프레임을 포함하지 않는 배경 영역에 대한 학습을 향상시키고, 매우 작은 목표에 대한 검출을 구현할 때 목표 검출 프레임을 포함하지 않는 배경 영역의 잘못된 검출 상황을 감소시킬 수 있다.
일부 실시예에서, 도 3에 도시한 바와 같이,트레이닝된 목표 검출 모델을 이용하여 검출 대상 픽처에 대해 목표 검출을 진행하는 단계는, 적어도 하나의 픽처 스케일링 사이즈에 따라 검출 대상 픽처에 대해 스케일링을 진행하는 단계(S1051); 스케일링된 검출 대상 픽처에 대해 슬라이싱하여 검출 대상 이미지 슬라이스 세트를 얻는 단계(S1052); 및 검출 대상 이미지 슬라이스 세트를 트레이닝된 목표 검출 모델에 입력하여 목표 검출을 진행하는 단계(S1053)를 포함할 수 있다. 검출 대상 픽처에 대해 스케일링 및 슬라이싱을 진행함으로써, 일방면에서는 이미지 프로세서의 메모리가 부족한 문제를 방지할 수 있고, 다른 방면에서는 검출 대상 이미지 슬라이스의 매우 작은 목표에 대한 검출을 구현하므로, 검출 대상 픽처 전체에 대해 매우 작은 목에 대한 검출을 구현할 수 있다.
일부 실시예에서,목표 검출 모델의 입력 픽처 사이즈를 검출 대상 이미지 슬라이스 사이즈로 이용하여, 스케일링된 검출 대상 픽처에 대해 슬라이싱할 수 있다. 이로써, 이미지 프로세서의 메모리 부족 문제를 방지할 수 있다. 즉, 검출 대상 이미지 슬라이스 사이즈를 트레이닝 이미지 슬라이스 사이즈와 동일하게 설정할 수 있는바, 목표 검출 모델의 입력 픽처 사이즈와 동일하다. 이해해야 할 것은, 검출 대상 이미지 슬라이스 크기를 적절히 증가시켜 목표 검출 모델의 입력 픽처 사이즈보다 크게 함으로써, 검출 대상 픽처의 슬라이싱 효율을 향상시킬 수 있다.
일부 실시예에서, 목표 검출 모델의 입력 픽처 사이즈와 최적 검출 사이즈의 차이보다 작은 이동 스텝 사이즈를 이용하여, 스케일링된 검출 대상 픽처에 대해 슬라이싱할 수 있다. 예를 들면, 스케일링된 검출 대상 픽처에 대해 슬라이싱하는 이동 스텝 사이즈를 스케일링된 트레이닝 픽처에 대해 슬라이싱하는 이동 스텝 사이즈와 동일하게 설정할 수 있다. 이로써, 스케일링된 각 트레이닝 픽처상의 각 목표 검출 프레임이 적어도 하나의 트레이닝 이미지 슬라이스에 완전하게 나타날 수 있도록 보장할 수 있다.
일부 실시예에서, 검출 대상 이미지 슬라이스 세트 중의 임의의 하나의 검출 대상 픽처 슬라이스에 대해, 만약 상기 검출 대상 이미지 슬라이스 상에서 상기 검출 대상 이미지 슬라이스의 엣지와 중첩된 목표 검출 프레임이 검출되면, 상기 목표 검출 프레임을 드롭할 수 있다. 예를 들면, 트레이닝된 목표 검출 모델이 어떤 검출 대상 이미지 슬라이스에 대해 목표 검출을 진행할 때, 상기 검출 대상 이미지 슬라이스상의 어떤 목표 검출 프레임이 불완전한 것을 발견하면, 상기 목표 검출 프레임을 드롭할 수 있다(즉, 상기 목표 검출 프레임이 검출되었다고 인식하지 않음). 이로써, 검출 대상 이미지 슬라이스 사이의 중첩 영역의 다중 검출 상황을 감소시킬 수 있다.
일부 실시예에서, 검출 대상 이미지 슬라이스 세트를 트레이닝된 목표 검출 모델에 입력하여 목표 검출을 진행하는 단계는, 트레이닝된 목표 검출 모델을 이용하여 검출 대상 이미지 슬라이스 세트 중의 각각의 검출 대상 이미지 슬라이스 상의 목표 검출 프레임과 관련된 좌표 정보를 얻는 단계; 검출 대상 이미지 슬라이스 세트 중의 각각의 검출 대상 이미지 슬라이스 상의 목표 검출 프레임과 관련된 좌표 정보를 상기 검출 대상 픽처에 기반한 좌표 정보로 변환하는 단계를 포함한다. 예를 들면, 임의의 하나의 검출 대상 이미지 슬라이스상에서 검출된 임의의 하나의 목표 검출 프레임에 대하여, 상기 목표 검출 프레임과 관련된 좌표 정보를 상기 검출 대상 이미지 슬라이스에 기반한 좌표 정보로부터 검출 대상 이미지에 기반한 좌표 정보로 변환한다. 이로써, 검출 대상 픽처에 대해 비교적 직관적인 목표 검출 결과를 얻을 수 있다.
종합하자면, 본 공개의 실시예에 따른 목표 검출 방법은 수동 개입이 없는 상황에서 작은 목표에 대한 검출 임무를 고품질로 완성할 수 있으며, 예를 들면, 산업 품질 검사, 농업 항공 사진등 장면에 적용가능하다.
도 4는 본 공개의 실시예에 따른 목표 검출 장치(400)를 나타낸 구조 블록도이다. 도 4에 도시한 바와 같이,목표 검출 장치(400)는 픽처 슬라이싱 구성 모듈(401), 모델 트레이닝 모듈(402) 및 목표 검출 모듈(403)을 포함할 수 있다. 픽처 슬라이싱 구성 모듈(401)은, 제1 트레이닝 데이터 세트 중 각 트레이닝 픽처 상의 목표 점유율을 통계함으로써 제1 트레이닝 데이터 세트 중의 적어도 하나의 전형적인 목표 점유율을 결정하고,적어도 하나의 전형적인 목표 점유율을 기반으로 적어도 하나의 픽처 스케일링 사이즈를 결정하고, 적어도 하나의 픽처 스케일링 사이즈에 따라 제1 트레이닝 데이터 세트 중의 각 트레이닝 픽처에 대해 스케일링을 진행하도록 구성된다. 모델 트레이닝 모듈(402)은 스케일링된 각 트레이닝 픽처에 대해 슬라이싱을 진행하여 제2 트레이닝 데이터 세트를 얻고, 제2 트레이닝 데이터 세트를 이용하여 목표 검출 모델에 대해 트레이닝하도록 구성된다. 목표 검출 모듈(403)은 트레이닝된 목표 검출 모델을 이용하여 검출 대상 픽처에 대해 목표 검출을 진행하도록 구성된다.
본 실시예에서, 목표 검출 장치(400) 및 상응하는 기능 모듈의 구체적인 구현 방식 및 기술 효과는 도1에서 설명한 실시예중의 관련 설명을 참조할 수 있으므로, 설명은 생략한다.
도 5는 본 공개의 실시예를 구현하는 예시적 컴퓨터 시스템을 나타낸 구조 블록도이다. 이하, 도5와 결합하여, 본 공개의 실시예를 구현하는데 적용되는 컴퓨터 시스템(500)을 설명한다. 분명히 해야 할 점은, 도5에 도시된 컴퓨터 시스템(500)은 단지 예시일 뿐, 본 공개의 실시예의 기능 및 사용 범위에 대해 어떠한 한정을 해서는 안된다.
도 5에 도시한 바와 같이, 컴퓨터 시스템(500)은 처리 장치(501)(예를 들면 CPU, 그래픽 프로세서)를 포함할 수 있고, 컴퓨터 시스템은 ROM(502)에 저장된 프로그램 또는 저장장치(508)에서 RAM(503)에 로드된 프로그램에 따라 각종 적합한 동작 및 처리를 실행할 수 있다. RAM(503)에는 컴퓨터 시스템(503)동작에 필요한 각종 프로그램 및 데이터가 추가로 저장되어 있다. 처리 장치(501), ROM(502) 및 RAM(503)은 버스(504)를 통해 서로 연결된다. 입력/출력(I/O) 인터페이스(503)도 버스(504)에 연결된다.
일반적으로, 다음 장치는 I/O인터페이스(505)에 연결될 수 있다: 예를 들면 터치 스크린, 터치 패널, 카메라, 가속도계, 자이로스코프등을 포함하는 입력 장치(506); LCD(Liquid Crystal Display), 스피커, 진동기등을 포함하는 출력 장치(507); 예를 들면 플래쉬 카드(Flash Card)등을 포함하는 저장 장치(508); 및 통신 장치(509)를 포함한다. 통신 장치(509)는 컴퓨터 시스템(500)이 다른 장치와 무선 또는 유선으로 통신을 진행하여 데이터를 교환하도록 허용할 수 있다. 도5에는 각종 장치를 구비한 컴퓨터 시스템(500)만을 도시하였으나, 모든 장치를 구현 또는 구비할 필요는 없음을 이해해야 한다. 더 많은 또는 더 적은 장치를 대체하여 구현 또는 구비할 수 있다. 도 5에 도시한 각 블록은 하나의 장치를 나타내거나 또는 필요에 따라 여러 장치를 나타낼 수 있다.
특별히, 본 공개의 실시예에 따르면, 상기 흐름도를 참조하여 설명하는 과정은 컴퓨터 소프트웨어 프로그램으로 구현될 수 있다. 예를 들면, 본 공개의 실시예는 컴퓨터 프로그램이 저장된 컴퓨터 판독 가능 저장 매체를 제공하고, 상기 컴퓨터 프로그램은 도 1에 도시된 방법(100)을 실행하는 프로그램 코드를 포함한다. 이러한 실시예에서, 상기 컴퓨터 프로그램은 통신 장치(509)를 통해 네트워크상에서 다운로드 및 설치하거나, 저장장치(508)로부터 설치하거나, 또는 ROM(502)으로부터 설치할 수 있다. 상기 컴퓨터 프로그램이 처리장치(501)에 의해 실행될 때, 본 공개의 실시예의 장치에서 기재한 상기 기능을 구현한다.
설명해야 할 것은, 본 공개의 실시예에서 설명하는 컴퓨터 판독 가능 매체는 컴퓨터 판독 가능 저장 매체이다. 컴퓨터 판독 가능 저장 매체는 예를 들면, 전자, 자기, 광, 전자기, 적외선 또는 반도체의 시스템, 장치 또는 디바이스, 또는 이들의 임의의 조합일 수 있지만, 이에 한정되지 않는다. 컴퓨터 판독 가능 저장 매체의 더욱 구체적인 예는 하나 이상의 와이어를 갖는 전기적 연결, 휴대용 컴퓨터 디스켓, 하드디스크, RAM, ROM, 소거 및 프로그래밍 가능한 읽기 전용 메모리(EPROM 또는 플래쉬 메모리), 광섬유, 휴대용 컴팩트 디스크 읽기 전용 메모리(CD-ROM), 광학 저장 장치, 자기 저장장치 또는 이들의 임의의 적절한 조합을 포함할 수 있으나, 이에 한정되지 않는다. 본 공개의 실시예에서, 컴퓨터 판독 가능 저장 매체는 프로그램을 포함하거나 저장하는 모든 유형 매체일 수 있으며, 상기 프로그램은 명령 실행 시스템, 장치 또는 디바이스에 의해 사용되거나 또는 이들과 결합하여 사용할 수 있다.
상기 컴퓨터 판독 가능 매체는 상기 컴퓨터 시스템(500)에 포함될 수 있고, 별개로 존재할 수도 있으나, 상기 컴퓨터 시스템(500)에는 장착되지 않는다. 상기 컴퓨터 판독 가능 매체에는 하나 또는 복수의 프로그램이 설치되어 있고, 상기 하나 이상의 프로그램이 상기 컴퓨터 장치에 의해 실행될 때, 상기 컴퓨터 시스템은, 제1 트레이닝 데이터 세트 중 각 트레이닝 픽처 상의 목표 점유율을 통계함으로써 제1 트레이닝 데이터 세트 중의 적어도 하나의 전형적인 목표 점유율을 결정하고; 적어도 하나의 전형적인 목표 점유율을 기반으로 적어도 하나의 픽처 스케일링 사이즈를 결정하고, 적어도 하나의 픽처 스케일링 사이즈에 따라 제1 트레이닝 데이터 세트 중의 각 트레이닝 픽처에 대해 스케일링을 진행하며; 스케일링된 각 트레이닝 픽처에 대해 슬라이싱을 진행하여 제2 트레이닝 데이터 세트를 얻고; 제2 트레이닝 데이터 세트를 이용하여 목표 검출 모델에 대해 트레이닝하며; 트레이닝된 목표 검출 모델을 이용하여 검출 대상 픽처에 대해 목표 검출을 진행한다.
본 공개의 실시예의 동작을 실행하기 위한 컴퓨터 프로그램 코드는 1종 이상의 프로그램 설계 언어 또는 그 조합에 의해 작성될 수 있고, 상기 프로그램 설계 언어는 Java, Smalltalk, C++ 등과 같은 객체 지향 프로그램 설계 언어를 포함하고, “C”언어 또는 유사한 프로그램 설계 언어와 같은 일반적인 절차적 프로그램 설계 언어도 더 포함할 수 있다. 프로그램 코드는 테넌트 컴퓨팅 장치에서 완전하게 실행되거나, 테넌트 장치에서 부분적으로 실행되거나, 하나의 독립적인 소프트웨어 패키지로서 실행되거나, 일부는 테넌트 컴퓨팅 장치에서 일부는 원격 컴퓨팅 장치에서 실행되거나 또는 원격 컴퓨텅 장치 또는 서버에서 완전하게 실행될 수 있다. 원격 컴퓨팅 장치의 경우에는, 원격 컴퓨팅 장치는 LAN, 또는 WAN을 포함하는 임의의 종류의 네트워크를 통해 테넌트 컴퓨팅 장치에 연결하거나 또는 외부 컴퓨팅 장치에 연결할 수 있다(예를 들면 인터넷 서버 제공자를 이용하여 인터넷을 통해 연결할 수 있다).
도면들 중의 흐름도 및 블록도는 본 공개의 각 실시예에 따른 시스템, 방법 및 컴퓨터 프로그램 제품의 구현 가능한 체계구조, 기능 및 동작을 예시한다. 여기서 흐름도 또는 블록도 중의 각 블록은 모듈, 프로그램 세그먼트, 또는 코드의 일부분을 나타낼 수 있고, 상기 모듈, 프로그램 세그먼트 또는 코드의 일부분은 규정된 논리적 기능을 구현하기 위한 하나 또는 그 이상의 실행가능한 명령을 포함한다. 또한 주의해야 할 것은, 일부 대체적인 구현에 있어서, 블록에 표시된 기능은 도면에 표시된 순서와 다른 순서로 발생할 수도 있다. 예를 들어, 순차적으로 표시된 두 개의 블록은 사실상 동시에 실행될 수 있고, 그 블록들은 경우에 따라,그것과 관련된 기능에 의존하여 역순으로 실행될 수도 있다. 또한 주의해야 할 것은, 블록도 및/또는 흐름도의 각 블록, 및 블록도 및/또는 흐름도의 블록의 조합은 규정된 기능 또는 조작에 전용되는 하드웨어를 기반으로 하는 시스템을 통해 실행되거나 또는 전용 하드웨어와 컴퓨터 명령의 조합을 이용하여 구현될 수 있다.
본 공개의 설명된 실시예와 관련된 모듈은 소프트웨어의 방식으로 구현될 수 있으며, 하드웨어의 방식으로도 구현될 수 있다. 설명된 모듈은 프로세서에 설치될 수도 있고, 예를 들면, 프로세서는 픽처 슬라이싱 구성 모듈, 모델 트레이닝 모듈 및 목표 검출 모듈을 포함한다고 설명할 수 있다. 이러한 모듈의 명칭은 특정 상황에서 상기 모듈 자체에 대해 한정을 구성하지 않는다.
이상의 설명은 본 공개의 비교적 바람직한 실시예 및 운용하는 기술적 원리에 대한 설명일 뿐이다. 해당 기술분야의 당업자는 본 공개에 관련된 발명의 범위가 상기 기술적 특징의 특정 조합으로 이루어진 기술적 방안에 한정되지 않으며, 동시에 상기 발명의 사상을 벗어나지 않는 상황에서, 상기 기술적 특징 또는 그들의 균등한 특징의 임의의 조합으로 이루어진 기타 기술적 방안, 예를 들어, 상기 특징을 본 공개의 실시예에 공개된(이에 한정되지 않음) 유사한 기능을 구비한 기술적 특징과 서로 대체하여 이루어진 기술적 방안도 포함하고 있음을 이해해야 한다.
Claims (17)
- 픽처 슬라이싱 구성 모듈이, 제1 트레이닝 데이터 세트 중 각 트레이닝 픽처 상의 목표 점유율을 통계함으로써, 상기 제1 트레이닝 데이터 세트 중의 적어도 하나의 전형적인 목표 점유율을 결정하는 단계;
상기 픽처 슬라이싱 구성 모듈이, 상기 적어도 하나의 전형적인 목표 점유율을 기반으로 적어도 하나의 픽처 스케일링 사이즈를 결정하고, 상기 적어도 하나의 픽처 스케일링 사이즈에 따라 상기 제1 트레이닝 데이터 세트 중의 각 트레이닝 픽처에 대해 스케일링을 진행하는 단계;
모델 트레이닝 모듈이, 스케일링된 각 트레이닝 픽처에 대해 슬라이싱을 진행하여, 제2 트레이닝 데이터 세트를 얻는 단계;
상기 모델 트레이닝 모듈이, 상기 제2 트레이닝 데이터 세트를 이용하여 목표 검출 모델에 대해 트레이닝하는 단계; 및
목표 검출 모듈이, 트레이닝된 목표 검출 모델을 이용하여 검출 대상 픽처에 대해 목표 검출을 진행하는 단계를 포함하는,
목표 검출 방법. - 제1항에 있어서,
상기 픽처 슬라이싱 구성 모듈이, 상기 목표 검출 모델의 최적 검출 사이즈를 기반으로 상기 적어도 하나의 픽처 스케일링 사이즈를 결정하는,
목표 검출 방법. - 제1항에 있어서,
상기 픽처 슬라이싱 구성 모듈이, 상기 적어도 하나의 픽처 스케일링 사이즈에 따라 상기 제1 트레이닝 데이터 세트 중의 각 트레이닝 픽처에 대해 스케일링을 진행하는 단계는,
상기 픽처 슬라이싱 구성 모듈이, 상기 적어도 하나의 픽처 스케일링 사이즈 중의 임의의 하나의 픽처 스케일링 사이즈에 대해, 상기 제1 트레이닝 데이터 세트 중의 각 트레이닝 픽처를 모두 상기 픽처 스케일링 사이즈로 스케일링하는 단계를 포함하는,
목표 검출 방법. - 제1항에 있어서,
상기 모델 트레이닝 모듈이, 스케일링된 각 트레이닝 픽처에 대해 슬라이싱을 진행하여 제2 트레이닝 데이터 세트를 얻는 단계는,
상기 모델 트레이닝 모듈이, 상기 스케일링된 각 트레이닝 픽처에 대해 슬라이싱하여, 트레이닝 이미지 슬라이스 세트를 획득하는 단계; 및
상기 모델 트레이닝 모듈이, 상기 제1 트레이닝 데이터 세트 중 각 트레이닝 픽처와 관련된 주석 정보를 변환함으로써, 상기 트레이닝 이미지 슬라이스 세트 중의 각 트레이닝 이미지 슬라이스와 관련된 주석 정보를 획득하는 단계를 포함하고,
상기 모델 트레이닝 모듈이, 상기 트레이닝 이미지 슬라이스 세트와 상기 트레이닝 이미지 슬라이스 세트 중의 각 트레이닝 이미지 슬라이스와 관련된 주석 정보로 상기 제2 트레이닝 데이터 세트를 구성하는,
목표 검출 방법. - 제4항에 있어서,
상기 모델 트레이닝 모듈이, 상기 목표 검출 모델의 입력 픽처 사이즈를 트레이닝 이미지 슬라이스 사이즈로 이용하여, 상기 스케일링된 각 트레이닝 픽처에 대해 슬라이스를 진행하는,
목표 검출 방법. - 제5항에 있어서,
상기 모델 트레이닝 모듈이, 상기 목표 검출 모델의 입력 픽처 사이즈와 최적 검출 사이즈의 차이보다 작은 이동 스텝 사이즈를 이용하여, 상기 스케일링된 각 트레이닝 픽처에 대해 슬라이싱을 진행하는,
목표 검출 방법. - 제6항에 있어서,
상기 모델 트레이닝 모듈이, 상기 제2 트레이닝 데이터 세트 중의 임의의 하나의 트레이닝 이미지 슬라이스에 대해, 상기 트레이닝 이미지 슬라이스와 관련된 주석 정보에서 상기 트레이닝 이미지 슬라이스 상의 불완전한 목표 검출 프레임과 관련된 좌표 정보를 제거하는 단계를 더 포함하는,
목표 검출 방법. - 제1항에 있어서,
상기 모델 트레이닝 모듈이, 상기 제2 트레이닝 데이터 세트 중의 목표 검출 프레임이 포함된 트레이닝 이미지 슬라이스, 목표 검출 프레임이 포함되지 않은 트레이닝 이미지 슬라이스 및 이들과 관련된 주석 정보를 이용하여 상기 목표 검출 모델에 대해 트레이닝하는,
목표 검출 방법. - 제1항에 있어서,
목표 검출 모듈이, 상기 트레이닝된 목표 검출 모델을 이용하여 상기 검출 대상 픽처에 대해 목표 검출을 진행하는 단계는,
상기 목표 검출 모듈이, 상기 적어도 하나의 픽처 스케일링 사이즈에 따라, 상기 검출 대상 픽처에 대해 스케일링하는 단계;
상기 목표 검출 모듈이, 상기 스케일링된 검출 대상 픽처에 대해 슬라이싱하여, 검출 대상 이미지 슬라이스 세트를 얻는 단계; 및
상기 목표 검출 모듈이, 상기 검출 대상 이미지 슬라이스 세트를 상기 트레이닝된 목표 검출 모델에 입력하여 목표 검출을 진행하는 단계를 포함하는,
목표 검출 방법. - 제9항에 있어서,
상기 목표 검출 모듈이, 상기 목표 검출 모델의 입력 픽처 사이즈를 검출 대상 이미지 슬라이스 사이즈로 이용하여, 상기 스케일링된 검출 대상 픽처에 대해 슬라이싱하는,
목표 검출 방법. - 제10항에 있어서,
상기 목표 검출 모듈이, 상기 목표 검출 모델의 입력 픽처 사이즈와 최적 검출 사이즈의 차이보다 작은 이동 스텝 사이즈를 이용하여, 상기 스케일링된 검출 대상 픽처에 대해 슬라이싱하는,
목표 검출 방법. - 제11항에 있어서,
상기 목표 검출 모듈이, 상기 검출 대상 이미지 슬라이스 세트 중의 임의의 하나의 검출 대상 픽처 슬라이스에 대해, 만약 상기 검출 대상 이미지 슬라이스 상에서 상기 검출 대상 이미지 슬라이스의 엣지와 중첩된 목표 검출 프레임이 검출되면, 상기 목표 검출 프레임을 폐기하는,
목표 검출 방법. - 제9항에 있어서,
상기 목표 검출 모듈이, 상기 검출 대상 이미지 슬라이스 세트를 상기 트레이닝된 목표 검출 모델에 입력하여 목표 검출을 진행하는 단계는,
상기 목표 검출 모듈이, 상기 트레이닝된 목표 검출 모델을 이용하여, 상기 검출 대상 이미지 슬라이스 세트 중의 각각의 검출 대상 이미지 슬라이스 상의 목표 검출 프레임과 관련된 좌표 정보를 얻는 단계;
상기 목표 검출 모듈이, 상기 검출 대상 이미지 슬라이스 세트 중의 각각의 검출 대상 이미지 슬라이스 상의 목표 검출 프레임과 관련된 좌표 정보를 상기 검출 대상 픽처에 기반한 좌표 정보로 변환하는 단계를 포함하는,
목표 검출 방법. - 픽처 슬라이싱 구성 모듈, 모델 트레이닝 모듈과 목표 검출 모듈을 포함하고,
상기 픽처 슬라이싱 구성 모듈은,
제1 트레이닝 데이터 세트 중 각 트레이닝 픽처 상의 목표 점유율을 통계함으로써, 상기 제1 트레이닝 데이터 세트 중의 적어도 하나의 전형적인 목표 점유율을 결정하고,
상기 적어도 하나의 전형적인 목표 점유율을 기반으로 적어도 하나의 픽처 스케일링 사이즈를 결정하고, 상기 적어도 하나의 픽처 스케일링 사이즈에 따라 상기 제1 트레이닝 데이터 세트 중의 각 트레이닝 픽처에 대해 스케일링을 진행하도록 구성되며;
상기 모델 트레이닝 모듈은,
스케일링된 각 트레이닝 픽처에 대해 슬라이스를 진행하여, 제2 트레이닝 데이터 세트를 얻고,
상기 제2 트레이닝 데이터 세트를 이용하여 목표 검출 모델에 대해 트레이닝하도록 구성되며;
상기 목표 검출 모듈은,
트레이닝된 목표 검출 모델을 이용하여 검출 대상 픽처에 대해 목표 검출을 진행하도록 구성되는,
목표 검출 장치. - 프로세서; 및
컴퓨터 프로그램이 저장된 메모리를 포함하고,
상기 컴퓨터 프로그램이 상기 프로세서에 의해 실행될 때 상기 프로세서가 제1항 내지 제13항 중 어느 한 항에 따른 목표 검출 방법을 실행하는,
컴퓨터 시스템. - 컴퓨터 프로그램이 저장된 컴퓨터 판독 가능 저장 매체에 있어서,
상기 컴퓨터 프로그램이 컴퓨터 시스템의 프로세서에 의해 실행될 때 상기 컴퓨터 시스템이 제1항 내지 제13항 중 어느 한 항에 따른 목표 검출 방법을 실행하는,
컴퓨터 판독 가능 저장 매체. - 컴퓨터 판독 가능 저장 매체에 저장된 컴퓨터 프로그램에 있어서,
상기 컴퓨터 프로그램은 명령을 포함하고, 상기 명령이 적어도 하나의 프로세서에 의해 실행될 때 제1항 내지 제13항 중 어느 한 항에 따른 방법을 구현하는,
컴퓨터 판독 가능 저장 매체에 저장된 컴퓨터 프로그램.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010878201.7A CN112001912B (zh) | 2020-08-27 | 2020-08-27 | 目标检测方法和装置、计算机系统和可读存储介质 |
CN202010878201.7 | 2020-08-27 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20220027739A KR20220027739A (ko) | 2022-03-08 |
KR102558704B1 true KR102558704B1 (ko) | 2023-07-21 |
Family
ID=73472063
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020210028050A KR102558704B1 (ko) | 2020-08-27 | 2021-03-03 | 목표 검출 방법 및 장치, 컴퓨터 시스템 및 판독 가능 저장 매체 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20220067375A1 (ko) |
EP (1) | EP3819823B1 (ko) |
JP (1) | JP7079358B2 (ko) |
KR (1) | KR102558704B1 (ko) |
CN (1) | CN112001912B (ko) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112614572B (zh) * | 2020-12-28 | 2023-02-21 | 深圳开立生物医疗科技股份有限公司 | 一种病灶标记方法、装置、图像处理设备及医疗系统 |
CN112906611B (zh) * | 2021-03-05 | 2024-04-26 | 新疆爱华盈通信息技术有限公司 | 一种井盖检测方法、装置、电子设备及存储介质 |
CN112927247A (zh) * | 2021-03-08 | 2021-06-08 | 常州微亿智造科技有限公司 | 基于目标检测的切图方法、切图装置和存储介质 |
CN113191451B (zh) * | 2021-05-21 | 2024-04-09 | 北京文安智能技术股份有限公司 | 图像数据集处理方法和目标检测模型训练方法 |
CN113870196A (zh) * | 2021-09-10 | 2021-12-31 | 苏州浪潮智能科技有限公司 | 一种基于锚点切图的图像处理方法、装置、设备和介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107341517B (zh) | 2017-07-07 | 2020-08-11 | 哈尔滨工业大学 | 基于深度学习层级间特征融合的多尺度小物体检测方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109934242A (zh) * | 2017-12-15 | 2019-06-25 | 北京京东尚科信息技术有限公司 | 图片识别方法和装置 |
CN110555808B (zh) * | 2018-05-31 | 2022-05-31 | 杭州海康威视数字技术股份有限公司 | 一种图像处理方法、装置、设备及机器可读存储介质 |
CN109508673A (zh) | 2018-11-13 | 2019-03-22 | 大连理工大学 | 一种基于棒状像素的交通场景障碍检测与识别方法 |
US10509987B1 (en) * | 2019-01-22 | 2019-12-17 | StradVision, Inc. | Learning method and learning device for object detector based on reconfigurable network for optimizing customers' requirements such as key performance index using target object estimating network and target object merging network, and testing method and testing device using the same |
CN110826566B (zh) * | 2019-11-01 | 2022-03-01 | 北京环境特性研究所 | 一种基于深度学习的目标切片提取方法 |
CN111027547B (zh) | 2019-12-06 | 2022-08-09 | 南京大学 | 一种针对二维图像中的多尺度多形态目标的自动检测方法 |
CN111582012A (zh) * | 2019-12-24 | 2020-08-25 | 珠海大横琴科技发展有限公司 | 一种检测小目标船只方法及装置 |
US11386645B2 (en) * | 2020-07-01 | 2022-07-12 | International Business Machines Corporation | Dataset driven custom learning for multi-scale object detection |
-
2020
- 2020-08-27 CN CN202010878201.7A patent/CN112001912B/zh active Active
-
2021
- 2021-03-03 KR KR1020210028050A patent/KR102558704B1/ko active IP Right Grant
- 2021-03-12 JP JP2021040067A patent/JP7079358B2/ja active Active
- 2021-03-12 US US17/200,445 patent/US20220067375A1/en not_active Abandoned
- 2021-03-17 EP EP21163231.0A patent/EP3819823B1/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107341517B (zh) | 2017-07-07 | 2020-08-11 | 哈尔滨工业大学 | 基于深度学习层级间特征融合的多尺度小物体检测方法 |
Non-Patent Citations (3)
Title |
---|
Li Liu et al. "Deep Learning for Generic Object Detection: A Survey" arxiv.org, Cornell University, 201 Olin Library Cornell University Ithaca, NY 14853, 2018.09.06., XP081467102. |
Singh Bharat et al. "An Analysis of Scale Invariance in Object Detection - SNIP" 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, IEEE, 2018.06.18., p 3578-3587, XP033476328. |
Yang Fan et al. Exploit All the Layers: Fast and Accurate CNN Object Detector with Scale Dependent Pooling and Cascaded Rejection Classifiers. CVPR(2016). 2016.06.27. pages 2129-2137. |
Also Published As
Publication number | Publication date |
---|---|
JP2022039921A (ja) | 2022-03-10 |
EP3819823A3 (en) | 2021-09-29 |
EP3819823B1 (en) | 2023-04-26 |
JP7079358B2 (ja) | 2022-06-01 |
US20220067375A1 (en) | 2022-03-03 |
EP3819823A2 (en) | 2021-05-12 |
CN112001912B (zh) | 2024-04-05 |
CN112001912A (zh) | 2020-11-27 |
KR20220027739A (ko) | 2022-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102558704B1 (ko) | 목표 검출 방법 및 장치, 컴퓨터 시스템 및 판독 가능 저장 매체 | |
US10810438B2 (en) | Setting apparatus, output method, and non-transitory computer-readable storage medium | |
EP3467707A1 (en) | System and method for deep learning based hand gesture recognition in first person view | |
CN110008806B (zh) | 信息处理装置、学习处理方法、学习装置及物体识别装置 | |
JP7107354B2 (ja) | 情報処理装置、情報処理方法およびプログラム | |
US20070126868A1 (en) | Image processing apparatus, image processing system, and recording medium for programs therefor | |
KR20210107667A (ko) | 이미지 분할 방법 및 장치, 전자 기기 및 저장 매체 | |
US9807310B2 (en) | Field display system, field display method, and field display program | |
JP2012243161A (ja) | 画像処理装置、画像処理方法 | |
CN110796664B (zh) | 图像处理方法、装置、电子设备及计算机可读存储介质 | |
JP2008009849A (ja) | 人物追跡装置 | |
JP2016187162A (ja) | 情報処理装置、情報処理方法、及びプログラム | |
US20220044027A1 (en) | Photography system | |
CN113439227A (zh) | 放大图像的捕获和存储 | |
JP6991045B2 (ja) | 画像処理装置、画像処理装置の制御方法 | |
CN111310595B (zh) | 用于生成信息的方法和装置 | |
CN104104902A (zh) | 云台方向故障检测方法及装置 | |
KR20220151130A (ko) | 영상 처리 방법, 장치, 전자 기기, 저장 매체 및 컴퓨터 프로그램 | |
JPWO2020003764A1 (ja) | 画像処理装置、移動装置、および方法、並びにプログラム | |
JP2013062688A (ja) | 画像処理装置、画像処理方法 | |
CN111968158A (zh) | 一种基于核相关滤波和结构相似性的视频抖动检测方法 | |
CN115410232B (zh) | 板书抓拍方法、装置、电子设备及可读存储介质 | |
JP7252775B2 (ja) | 映像解析支援装置及び方法 | |
WO2021014873A1 (ja) | 監視装置、監視方法、及びコンピュータ読み取り可能な記録媒体 | |
CN117197756B (zh) | 隐患区域入侵检测方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |