KR20220018467A - 목표 대상 인식 방법, 장치 및 시스템 - Google Patents

목표 대상 인식 방법, 장치 및 시스템 Download PDF

Info

Publication number
KR20220018467A
KR20220018467A KR1020217013067A KR20217013067A KR20220018467A KR 20220018467 A KR20220018467 A KR 20220018467A KR 1020217013067 A KR1020217013067 A KR 1020217013067A KR 20217013067 A KR20217013067 A KR 20217013067A KR 20220018467 A KR20220018467 A KR 20220018467A
Authority
KR
South Korea
Prior art keywords
target
image
recognition
target object
sample image
Prior art date
Application number
KR1020217013067A
Other languages
English (en)
Inventor
진 우
카이거 천
수아이 이
Original Assignee
센스타임 인터내셔널 피티이. 리미티드.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from SG10202007347VA external-priority patent/SG10202007347VA/en
Application filed by 센스타임 인터내셔널 피티이. 리미티드. filed Critical 센스타임 인터내셔널 피티이. 리미티드.
Publication of KR20220018467A publication Critical patent/KR20220018467A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/255Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/40Filling a planar surface by adding surface attributes, e.g. colour or texture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/98Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19147Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20132Image cropping
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Geometry (AREA)
  • Quality & Reliability (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 목표 대상 인식 방법, 장치 및 시스템을 제공한다. 상기 방법은 수집된 이미지로부터, 적층된 복수의 인식 대기의 목표 대상을 포함하는 목표 이미지를 커팅하는 것; 상기 목표 이미지의 높이를 소정의 높이로 조정하는 것; 상기 조정된 목표 이미지의 특징 맵을 추출하는 것; 상기 특징 맵을 상기 목표 이미지의 높이 방향에 대응하는 차원에 따라 세그먼트 분할하여, 소정의 개수의 세그먼트의 특징을 취득하는 것; 및 상기 소정의 개수의 세그먼트의 특징 중의 각 세그먼트의 특징에 기반하여 목표 대상의 인식을 실행하는 것을 포함하되, 상기 목표 이미지의 높이 방향은 상기 복수의 인식 대기의 목표 대상이 적층된 방향이다.

Description

목표 대상 인식 방법, 장치 및 시스템
[관련 출원의 상호 인용]
본 발명은 출원일이 2020년 8월 1일이고, 발명 명칭이 "목표 대상 인식 방법, 장치 및 시스템”이며, 출원 번호가 10202007347V인 싱가포르 특허 출원의 우선권을 주장하는바, 당해 출원의 모든 내용이 본 발명에 인용되어 병합될 수 있다.
[기술분야]
본 발명은 컴퓨터 비전 기술 분야에 관한 것인바, 특히 목표 대상 인식 방법, 장치 및 시스템에 관한 것이다.
일상 생산 및 생활에서는 일반적으로 여러 목표 대상을 인식할 필요가 있다. 데스크탑 게임이라는 오락 장면을 예로 들면, 여러 데스크탑 게임에서 데스크탑 상의 게임 코인을 인식함으로써, 게임 코인의 종류 및 수량 정보를 취득할 필요가 있다. 그러나, 전통적인 인식 방식에서는 인식 정확률이 낮다.
본 발명의 일 양태는 목표 대상 인식 방법을 제공한다. 상기 목표 대상 인식 방법은 수집된 이미지로부터, 적층된 복수의 인식 대기의 목표 대상을 포함하는 목표 이미지를 커팅하는 것; 상기 목표 이미지의 높이를 소정의 높이로 조정하는 것; 상기 조정된 목표 이미지의 특징 맵을 추출하는 것; 상기 특징 맵을 상기 목표 이미지의 높이 방향에 대응하는 차원에 따라 세그먼트 분할하여, 소정의 개수의 세그먼트의 특징을 취득하는 것; 및 상기 소정의 개수의 세그먼트의 특징 중의 각 세그먼트의 특징에 기반하여 목표 대상의 인식을 실행하는 것을 포함하되, 상기 목표 이미지의 높이 방향은 상기 복수의 인식 대기의 목표 대상이 적층된 방향이다.
본 발명에 따른 임의의 하나의 실시 형태를 참조하면, 상기 목표 이미지의 높이를 상기 소정의 높이로 조정하는 것은, 스케일링 후의 목표 이미지의 폭이 소정의 폭으로 될 때까지, 상기 목표 이미지의 높이 및 폭을 동일한 비율로 스케일링 하는 것; 및 상기 스케일링 후의 목표 이미지의 높이가 상기 소정의 높이보다 클 경우, 축소 후의 목표 이미지의 높이가 상기 소정의 높이와 동일해질 때까지, 상기 스케일링 후의 목표 이미지의 높이 및 폭을 동일한 비율로 축소하는 것을 포함한다.
본 발명에 따른 임의의 하나의 실시 형태를 참조하면, 상기 목표 이미지의 높이를 상기 소정의 높이로 조정하는 것은, 스케일링 후의 목표 이미지의 폭이 소정의 폭으로 될 때까지, 상기 목표 이미지의 높이 및 폭을 동일한 비율로 스케일링 하는 것; 및 상기 스케일링 후의 목표 이미지의 높이가 상기 소정의 높이보다 작을 경우, 제1 픽셀을 이용하여 상기 스케일링 후의 목표 이미지에 대해 충전을 실행함으로써, 충전된 목표 이미지의 높이가 상기 소정의 높이로 되도록 하는 것을 포함한다.
본 발명에 따른 임의의 하나의 실시 형태를 참조하면, 상기 목표 이미지 내의 인식 대기의 목표 대상은 시트 형 물체이며, 각 인식 대기의 목표 대상의 두께는 동일하고, 상기 복수의 인식 대기의 목표 대상은 두께 방향에 따라 적층되어 있으며, 또한, 상기 소정의 높이는 상기 두께의 정수배다.
본 발명에 따른 임의의 하나의 실시 형태를 참조하면, 상기 특징 맵의 추출 및 목표 대상의 인식은 모두 신경망에 의해 실행되며, 상기 신경망은 샘플 이미지 및 그 라벨 정보를 이용하여 트레이닝된 것이다.
본 발명에 따른 임의의 하나의 실시 형태를 참조하면, 상기 샘플 이미지의 라벨 정보는 상기 샘플 이미지 내의 각 목표 대상의 라벨 타입을 포함하고, 상기 신경망은 사이즈 조정 후의 샘플 이미지에 대해 특징 추출을 실행하여, 상기 사이즈 조정 후의 샘플 이미지의 특징 맵을 얻는 것; 상기 특징 맵을 세그먼트 분할하여 얻은 각 세그먼트의 특징에 기반하여 샘플 이미지 내의 목표 대상의 인식을 실행하여, 샘플 이미지 내의 각 목표 대상의 예측 타입을 얻는 것; 및 상기 샘플 이미지 내의 각 목표 대상의 예측 타입 및 상기 샘플 이미지 내의 각 목표 대상의 라벨 타입에 기반하여 상기 신경망의 매개 변수 값을 조정하는 것을 통해 트레이닝된 것이다.
본 발명에 따른 임의의 하나의 실시 형태를 참조하면, 상기 샘플 이미지의 라벨 정보는 각 라벨 타입의 목표 대상의 개수를 더 포함하며, 상기 신경망의 매개 변수 값을 조정하는 것은, 상기 샘플 이미지 내의 각 목표 대상의 예측 타입, 상기 샘플 이미지 내의 각 목표 대상의 라벨 타입, 상기 샘플 이미지 중의 각 라벨 타입의 목표 대상의 개수 및 상기 샘플 이미지 중의 각 예측 타입의 목표 대상의 개수에 기반하여 상기 신경망의 매개 변수 값을 조정하는 것을 포함한다.
본 발명에 따른 임의의 하나의 실시 형태를 참조하면, 상기 샘플 이미지의 라벨 정보는 상기 샘플 이미지 내의 목표 대상의 총 개수를 더 포함하며, 상기 신경망의 매개 변수 값을 조정하는 것은, 상기 샘플 이미지 내의 각 목표 대상의 예측 타입, 상기 샘플 이미지 내의 각 목표 대상의 라벨 타입, 상기 샘플 이미지 중의 각 예측 타입의 목표 대상의 개수의 합 및 상기 샘플 이미지 내의 목표 대상의 총 개수에 기반하여 상기 신경망의 매개 변수 값을 조정하는 것을 포함한다.
본 발명에 따른 임의의 하나의 실시 형태를 참조하면, 상기 목표 대상 인식 방법은 트레이닝된 상기 신경망을 테스트하는 것; 상기 테스트의 결과에 기반하여 상기 신경망에 따라 각 타입의 목표 대상의 인식 정밀도를 정렬하여, 인식 정밀도의 정렬 결과를 얻는 것; 상기 테스트의 결과에 기반하여 상기 신경망에 따라 각 타입의 목표 대상의 인식 오류율을 정렬하여, 인식 오류율의 정렬 결과를 얻는 것; 및 상기 인식 정밀도의 정렬 결과 및 상기 인식 오류율의 정렬 결과에 기반하여 상기 신경망을 더 한층 트레이닝하는 것을 더 포함한다.
본 발명에 따른 임의의 하나의 실시 형태를 참조하면, 상기 목표 대상 인식 방법은 트레이닝된 상기 신경망을 테스트하는 것; 상기 테스트의 결과에 기반하여 상기 신경망에 따라 각 타입의 목표 대상의 인식 정밀도를 정렬하여, 인식 정밀도의 정렬 결과를 얻는 것; 상기 테스트의 결과에 기반하여 상기 신경망에 따라 각 타입의 목표 대상의 인식 오류율을 정렬하여, 인식 오류율의 정렬 결과를 얻는 것; 및 상기 인식 정밀도의 정렬 결과 및 상기 인식 오류율의 정렬 결과에 기반하여 상기 신경망을 더 한층 트레이닝하는 것을 더 포함한다.
본 발명의 일 양태는 목표 대상 인식 장치를 제공한다. 상기 목표 대상 인식 장치는 수집된 이미지로부터, 적층된 복수의 인식 대기의 목표 대상을 포함하는 목표 이미지를 커팅하기 위한 취득 유닛; 상기 목표 이미지의 높이를 소정의 높이로 조정하기 위한 조정 유닛; 조정된 목표 이미지의 특징 맵을 추출하기 위한 추출 유닛; 상기 특징 맵을 상기 목표 이미지의 높이 방향에 대응하는 차원에 따라 세그먼트 분할하여, 소정의 개수의 세그먼트의 특징을 얻기 위한 세그먼트 분할 유닛; 및 상기 소정의 개수의 세그먼트의 특징 중의 각 세그먼트의 특징에 기반하여 목표 대상의 인식을 실행하기 위한 인식 유닛을 구비하되, 상기 목표 이미지의 높이 방향은 상기 복수의 인식 대기의 목표 대상이 적층된 방향이다.
본 발명에 따른 임의의 하나의 실시 형태를 참조하면, 상기 조정 유닛은 스케일링 후의 목표 이미지의 폭이 소정의 폭으로 될 때까지, 상기 목표 이미지의 높이 및 폭을 동일한 비율로 스케일링하고, 또한, 상기 스케일링 후의 목표 이미지의 높이가 상기 소정의 높이보다 클 경우, 축소 후의 목표 이미지의 높이가 상기 소정의 높이와 동일해질 때까지, 상기 스케일링 후의 목표 이미지의 높이 및 폭을 동일한 비율로 축소한다.
본 발명에 따른 임의의 하나의 실시 형태를 참조하면, 상기 조정 유닛은 스케일링 후의 목표 이미지의 폭이 소정의 폭으로 될 때까지, 상기 목표 이미지의 높이 및 폭을 동일한 비율로 스케일링하고, 또한, 상기 스케일링 후의 목표 이미지의 높이가 상기 소정의 높이보다 작을 경우, 제1 픽셀을 이용하여 스케일링 후의 목표 이미지에 대해 충전을 실행함으로써, 충전된 목표 이미지의 높이가 상기 소정의 높이로 되도록 한다.
본 발명에 따른 임의의 하나의 실시 형태를 참조하면, 상기 목표 이미지 내의 인식 대기의 목표 대상은 시트 형 물체이며, 각 인식 대기의 목표 대상의 두께는 동일하고, 복수의 인식 대기의 목표 대상은 두께 방향에 따라 적층되어 있으며, 또한 상기 소정의 높이는 상기 두께의 정수배다.
본 발명에 따른 임의의 하나의 실시 형태를 참조하면, 상기 특징 맵의 추출 및 목표 대상의 인식은 모두 신경망에 의해 실행되며, 상기 신경망은 샘플 이미지 및 그 라벨 정보를 이용하여 트레이닝된 것이다.
본 발명에 따른 임의의 하나의 실시 형태를 참조하면, 상기 샘플 이미지의 라벨 정보는 상기 샘플 이미지 내의 각 목표 대상의 라벨 타입을 포함하고, 상기 목표 대상 인식 장치는 트레이닝 유닛을 더 구비하며, 상기 트레이닝 유닛은 사이즈 조정 후의 샘플 이미지에 대해 특징 추출을 실행하여, 상기 사이즈 조정 후의 샘플 이미지의 특징 맵을 얻는 것; 상기 특징 맵을 세그먼트 분할하여 얻은 각 세그먼트의 특징에 기반하여 샘플 이미지 내의 목표 대상의 인식을 실행하여, 샘플 이미지 내의 각 목표 대상의 예측 타입을 얻는 것; 및 상기 샘플 이미지 내의 각 목표 대상의 예측 타입 및 상기 샘플 이미지 내의 각 목표 대상의 라벨 타입에 기반하여 상기 신경망의 매개 변수 값을 조정하는 것을 통해 상기 신경망을 트레이닝한다.
본 발명에 따른 임의의 하나의 실시 형태를 참조하면, 상기 샘플 이미지의 라벨 정보는 각 라벨 타입의 목표 대상의 개수를 더 포함하며, 상기 트레이닝 유닛은 상기 샘플 이미지 내의 각 목표 대상의 예측 타입, 상기 샘플 이미지 내의 각 목표 대상의 라벨 타입, 상기 샘플 이미지 중의 각 라벨 타입의 목표 대상의 개수 및 상기 샘플 이미지 중의 각 예측 타입의 목표 대상의 개수에 기반하여 상기 신경망의 매개 변수 값을 조정한다.
본 발명에 따른 임의의 하나의 실시 형태를 참조하면, 상기 샘플 이미지의 라벨 정보는 상기 샘플 이미지 내의 목표 대상의 총 개수를 더 포함하며, 상기 트레이닝 유닛은 상기 샘플 이미지 내의 각 목표 대상의 예측 타입, 상기 샘플 이미지 내의 각 목표 대상의 라벨 타입, 상기 샘플 이미지 중의 각 예측 타입의 목표 대상의 개수의 합 및 상기 샘플 이미지 내의 목표 대상의 총 개수에 기반하여 상기 신경망의 매개 변수 값을 조정한다.
본 발명에 따른 임의의 하나의 실시 형태를 참조하면, 상기 목표 대상 인식 장치는 테스트 유닛을 더 구비하며, 상기 테스트 유닛은 트레이닝된 상기 신경망을 테스트하고, 상기 테스트의 결과에 기반하여 상기 신경망에 따라 각 타입의 목표 대상의 인식 정밀도를 정렬하여, 인식 정밀도의 정렬 결과를 얻고, 상기 테스트의 결과에 기반하여 상기 신경망에 따라 각 타입의 목표 대상의 인식 오류율을 정렬하여, 인식 오류율의 정렬 결과를 얻으며, 상기 인식 정밀도의 정렬 결과 및 상기 인식 오류율의 정렬 결과에 기반하여 상기 신경망을 더 한층 트레이닝한다.
본 발명의 일 양태는 전자 디바이스를 제공한다. 상기 전자 디바이스는 프로세서; 및 프로세서 실행 가능 명령을 기억하기 위한 메모리를 구비하며, 상기 프로세서는 상기 메모리에 기억된 명령을 호출함으로써, 본 발명의 임의의 하나의 실시 형태에 기재된 목표 대상 인식 방법을 실시하도록 구성된다.
본 발명의 일 양태는 컴퓨터 판독 가능 기록 매체를 제공한다. 상기 컴퓨터 판독 가능 기록 매체에는 컴퓨터 프로그램 명령이 기록되어 있으며, 상기 컴퓨터 프로그램 명령이 프로세서에 의해 실행될 때에, 본 발명의 임의의 하나의 실시 형태에 기재된 목표 대상 인식 방법은 실시된다.
본 발명에 하나 또는 복수의 실시예에 따른 목표 대상 인식 방법, 장치, 전자 디바이스 및 기록 매체에 따르면, 수집된 이미지로부터 커팅한 목표 이미지의 높이를 소정의 높이로 조정하고, 조정 후의 목표 이미지의 특징 맵을 추출하며, 상기 특징 맵을 상기 목표 이미지의 높이 방향에 대응하는 차원에 따라 세그먼트 분할하여, 소정의 개수의 세그먼트의 특징을 취득함으로써, 상기 소정의 개수의 세그먼트의 특징 중의 각 세그먼트의 특징에 기반하여 목표 대상의 인식을 실행한다. 세그먼트 분할하여 얻은 세그먼트의 특징이 각 목표 대상의 특징 맵에 대응되기 때문에, 세그먼트 분할 특징에 기반하여 목표 대상의 인식을 실행함으로써, 목표 대상의 개수가 인식 정확성에 영향을 주는 것을 피할 수 있으며, 목표 대상의 인식 정확성을 향상시킬 수 있다.
상기의 일반적인 설명과 이하의 상세 설명은 단지 예시적인 것과 해석적인 것일 뿐, 본 발명을 제한하기 위한 것이 아님을 이해해야 한다.
여기에서의 도면은 명세서에 통합되어 명세서의 일부를 구성한다. 이러한 도면은 본 발명에 부합되는 실시예를 제시하는바, 명세서의 기재와 함께 본 발명의 기술적 해결책을 해석하기 위하여 사용된다.
도 1은 본 발명의 적어도 하나의 실시예에 따른 목표 대상 인식 방법의 플로우 챠트이다.
도 2a는 본 발명의 적어도 하나의 실시예에 따른 목표 대상 인식 방법 중의 수직으로 적층된 복수의 목표 대상의 모식도이다.
도 2b는 본 발명의 적어도 하나의 실시예에 따른 목표 대상 인식 방법 중의 수평으로 적층된 복수의 목표 대상의 모식도이다.
도 3은 본 발명의 적어도 하나의 실시예에 따른 목표 대상 인식 장치의 블록도이다.
도 4는 본 발명의 적어도 하나의 실시예에 따른 전자 디바이스의 블록도이다.
이하, 당업자로 하여금 본 발명을 더 잘 이해하도록 하기 위하여, 도면을 참조하여 본 발명의 여러 실시예를 명확하고 완전하게 설명한다. 분명한 점이라면, 설명되는 실시예는 단지 본 발명의 일부 가능한 실시예에 지나지 않는다. 본 발명의 하나 또는 복수의 실시예에 기반하여 당업자가 발명적 노력을 하지 않고 얻은 모든 기타 실시예는 모두 본 발명의 보호 범위에 포함되어야 한다.
본 발명에서 사용되는 용어는 특정 실시예를 설명하는 것만을 목적으로 할 뿐, 본 발명을 한정하려는 것을 의도하지 않는다. 본 발명 및 첨부된 특허 청구의 범위에서 사용되는 "일종”, "상기” 및 "당해”의 단수형은, 문맥이 다른 의미를 명확히 나타내지 않는 한, 복수형도 포함하려는 것을 의도한다. 본 명세서에서 사용되는 "및/또는”이라는 용어는 관련되게 리스트된 하나 또는 복수의 항목의 임의 또는 모든 가능한 조합을 나타냄을 또한 이해해야 한다. 또한 본 명세서에 있어서의 "적어도 하나”라는 용어는 복수 종류 중의 임의의 하나의 종류 또는 복수 종류 중의 적어도 두 종류의 임의의 조합을 의미한다.
본 발명에서는 제1, 제2, 제3 등의 용어를 사용하여 다양한 정보를 설명할 수 있지만, 이러한 정보는 이러한 용어에 한정되지 않음을 이해해야 한다. 이러한 용어는 동일한 타입의 정보를 서로 구별하기 위하여서만 사용된다. 예를 들면, 본 발명의 범위에서 일탈하지 않는 전제 하에서, 제1 정보는 제2 정보라고 불릴 수도 있고, 마찬가지로 제2 정보도 제1 정보라고 불릴 수 있다. 문맥에 따라 여기서 사용되는 "만약”이라는 단어는 "……면" 또는 "…… 경우" 또는 "확정된 것에 응답하여"로 해석될 수 있다.
도 1은 본 발명의 적어도 하나의 실시예에 따른 목표 대상 인식 방법의 플로우 챠트이다. 도 1에 나타낸 바와 같이, 당해 방법은 단계 101∼105를 포함할 수 있다.
단계 101에 있어서, 수집된 이미지로부터 목표 이미지를 커팅하되, 상기 목표 이미지는 적층된 복수의 인식 대기의 목표 대상을 포함한다.
여러 일반적인 상황에 있어서, 인식 대기의 목표 대상은 게임 코인과 같은 다양한 형상의 시트 형 물체이며, 또한 각 목표 대상의 두께(높이)은 일반적으로 동일하다. 복수의 인식 대기의 목표 대상은 일반적으로 두께 방향에 따라 적층된다. 도 2a에 나타낸 바와 같이, 복수의 게임 코인은 연직 방향에 따라 적층(정립(stand) 적층)되어 있으며, 목표 이미지의 높이 방향(H)은 연직 방향이며, 목표 이미지의 폭 방향(W)은 목표 이미지의 높이 방향(H)에 수직된 방향이다. 도 2b에 나타낸 바와 같이, 복수의 게임 코인은 수평 방향에 따라 적층(측립(float)적층)되어 있으며, 목표 이미지의 높이 방향(H)은 수평 방향이며, 목표 이미지의 폭 방향(W)은 목표 이미지의 높이 방향(H)에 수직된 방향이다.
인식 대기의 목표 대상은 목표 영역에 놓인 목표 대상일 수 있다. 상기 목표 영역은 평면(예를 들면, 데스크탑), 용기(예를 들면, 박스)등일 수 있다. 목표 영역 부근의 카메라 또는 카메라 헤드와 같은 이미지 수집 장치를 통해 상기 목표 영역의 이미지를 수집할 수 있다.
본 발명의 실시예에 있어서, RCNN(Region Convolutional Neural Network)과 같은 딥 러닝 네트워크를 이용하여, 수집된 이미지를 검출하여 목표 대상 검출 결과를 취득할 수 있으며, 상기 검출 결과는 검출 프레임일 수 있다. 검출 프레임을 통해, 상기 수집된 이미지로부터, 적층된 복수의 인식 대기의 목표 대상을 포함하는 목표 이미지를 커팅할 수 있다. 당업자라면 이해할 수 있듯이, RCNN은 단지 예시적인 것일 뿐, 기타 딥 러닝 네트워크를 채용하여 목표 검출을 실행할 수 있는바, 본 발명은 이에 대해 한정하지 않는다.
단계 102에 있어서, 상기 목표 이미지의 높이를 소정의 높이로 조정한다.
여기서, 상기 목표 이미지의 높이 방향은 상기 복수의 인식 대기의 목표 대상이 적층된 방향이다. 상기 소정의 높이는 상기 인식 대기의 목표 대상의 두께 정수배일 수 있다. 도 2a 및 도 2b에 나타낸 적층된 게임 코인을 예로 들면, 도 2a 및 도 2b로 나타내진 게임 코인의 적층 방향을 상기 목표 이미지의 높이 방향으로 확정할 수 있다. 이에 따라, 상기 게임 코인의 반경 방향을 상기 목표 이미지의 폭 방향으로 확정한다.
단계 103에 있어서, 조정된 목표 이미지의 특징 맵을 추출한다.
조정 후의 목표 이미지에 대해, 미리 트레이닝된 특징 추출 네트워크를 이용하여 상기 조정 후의 목표 이미지의 특징 맵을 취득할 수 있다. 여기서, 상기 특징 추출 네트워크는 복수의 컨벌루션 계층, 또는 복수의 컨벌루션 계층과 풀링 계층 등을 포함할 수 있다. 복수 계층의 특징 추출을 통해, 점차적으로 하위 계층 특징을 중간 계층 또는 상위 계층 특징으로 변환함으로서, 상기 목표 이미지에 대한 표현력을 향상시켜, 후속의 처리를 유리하도록 한다.
단계 104에 있어서, 상기 특징 맵을 상기 목표 이미지의 높이 방향에 따라 세그먼트 분할하여 소정의 개수의 세그먼트의 특징을 취득한다.
상기 특징 맵을 목표 이미지의 높이 방향을 따라 세그먼트 분할함으로써, 소정의 개수의 세그먼트의 특징을 취득할 수 있다. 여기서, 각 세그먼트의 특징을 하나의 목표 대상에 대응하는 것으로 간주할 수 있다. 여기서, 상기 소정의 개수는 인식 대기의 목표 대상의 최대 개수이기도 하다.
일 예에 있어서, 상기 특징 맵은 채널 차원, 높이 차원, 폭 차원, 배치(batch) 차원과 같은 복수의 차원을 포함할 수 있으며, 상기 특징 맵의 포맷은 예를 들면, [B C H W]로 표현될 수 있다. 여기서, B는 배치 차원을 나타내고, C는 채널 차원을 나타내며, H는 높이 차원을 나타내고, W는 폭 차원을 나타낸다. 여기서, 상기 특징 맵의 높이 차원과 폭 차원이 나타내는 방향은, 목표 이미지의 높이 방향 및 폭 방향에 기반하여 확정될 수 있다.
단계 105에 있어서, 상기 소정의 개수의 세그먼트의 특징 중의 각 세그먼트의 특징에 기반하여 목표 대상의 인식을 실행한다.
각 세그먼트의 특징이 하나의 목표 대상에 대응되기 때문에, 각 세그먼트의 특징에 대해 목표 대상의 인식을 실행하는 것은, 직접 목표 이미지의 특징 맵을 이용하여 목표 인식을 실행하는 것보다, 목표 대상의 개수에 의한 영향을 해소하였고, 목표 이미지 내의 목표 대상의 인식 정확성을 향상시켰다.
몇몇의 실시예에 있어서, 목표 영역의 측면에 설치된 이미지 수집 장치를 통해, 정립된 복수의 목표 대상을 포함하는 목표 이미지(측면 이미지로 칭함)을 촬영할 수 있으며, 또는 목표 영역의 상부에 설치된 이미지 수집 장치를 통해, 측립된 복수의 목표 대상을 포함하는 목표 이미지(평면 이미지로 칭함)을 촬영할 수 있다.
몇몇의 실시예에 있어서, 이하의 방법으로 상기 목표 이미지의 높이를 조정할 수 있다.
먼저, 상기 목표 이미지에 대응하는 소정의 높이 및 소정의 폭을 취득하여, 상기 목표 이미지에 대해 사이즈 변환을 실행할 때 사용한다. 여기서, 상기 소정의 폭은 목표 대상의 평균 폭에 따라 설정될 수 있고, 상기 소정의 높이는 상기 목표 대상의 평균 높이 및 인식 대기의 목표 대상의 최대 개수에 따라 설정될 수 있다.
일 예에 있어서, 상기 목표 이미지의 폭이 소정의 폭으로 될 때까지, 상기 목표 이미지의 높이 및 폭을 동일한 비율로 스케일링할 수 있다. 여기서, 동일한 비율로 스케일링하는 것은, 상기 목표 이미지의 높이 및 폭 사이의 비율을 유지한 채, 상기 목표 이미지에 대해 확대 또는 축소를 실행하는 것을 가리킨다. 여기서, 상기 소정의 폭 및 소정의 높이의 단위는 픽셀일 수도 있고, 기타 단위일 수도 있는바, 본 발명에서는 이에 대해 한정하지 않는다.
스케일링 후의 목표 이미지의 폭이 소정의 폭에 달했지만, 스케일링 후의 목표 이미지의 높이가 소정의 높이보다 클 경우, 축소 후의 목표 이미지의 높이가 소정의 높이와 동일해질 때까지, 상기 스케일링 후의 목표 이미지의 높이 및 폭을 동일한 비율로 축소한다.
예를 들면, 상기 목표 대상이 게임 코인이라고 가정하면, 게임 코인의 평균 폭에 기반하여 소정의 폭을 224pix(픽셀)로 설정할 수 있으며, 게임 코인의 평균 높이 및 인식 대기의 게임 코인의 최대 개수 72에 기반하여, 소정의 높이를 1344pix로 설정할 수 있다. 먼저, 목표 이미지의 폭을 224pix로 조정하고, 상기 목표 이미지의 높이를 동일한 비율로 조정할 수 있다. 조정 후의 높이가 1344pix보다 클 경우, 조정 후의 목표 이미지의 높이를 다시 조정하여 상기 목표 이미지의 높이를 1344pix로 되도록 하며, 상기 목표 이미지의 폭을 동일한 비율로 조정함으로써, 상기 목표 이미지의 높이를 소정의 높이 1344pix로 조정한다. 조정 후의 높이가 1344pix과 동일할 경우, 다시 조정할 필요가 없으며, 상기 목표 이미지의 높이를 소정의 높이 1344pix로 조정한다.
일 예에 있어서, 상기 목표 이미지의 폭이 소정의 폭으로 될 때까지, 상기 목표 이미지의 높이 및 폭을 동일한 비율로 스케일링한다. 스케일링 후의 목표 이미지의 폭이 소정의 폭에 달했지만, 스케일링 후의 목표 이미지의 높이가 소정의 높이보다 작을 경우, 제1 픽셀을 이용하여 스케일링 후의 목표 이미지를 충전함으로써, 충전 후의 목표 이미지의 높이가 소정의 높이로 되도록 한다.
여기서, 상기 제1 픽셀은 픽셀 값이 0인 픽셀인바, 즉, 검은색 픽셀일 수 있다. 상기 제1 픽셀을 기타 픽셀 값으로 설정할 수 있다. 구체적인 픽셀 값은 본 발명의 실시예의 효과에 영향을 주지 않는다.
여전히 상기 목표 대상이 게임 코인이고, 소정의 폭이 224pix이며, 소정의 높이가 1344pix이고, 최대 개수가 72인 예로 들면, 먼저 목표 이미지의 폭을 224pix까지 스케일링하고, 상기 목표 이미지의 높이를 동일한 비율로 스케일링할 수 있다. 스케일링 후의 목표 이미지의 높이가 1344pix보다 작을 경우, 1344pix 미만인 높이 부분에 검은색 픽셀을 충전함으로써, 충전 후의 목표 이미지의 높이가 1344pix로 되도록 한다. 충전 후의 목표 이미지의 높이가 1344pix과 동일할 경우, 충전할 필요 없이, 상기 목표 이미지의 높이를 소정의 높이 1344pix에 조정하는 것을 실현할 수 있다.
상기 목표 이미지의 높이를 소정의 높이로 조정한 후, 조정 후의 목표 이미지의 특징 맵을 상기 목표 이미지의 높이 방향에 대응하는 차원에 따라 세그먼트 분할하여 소정의 개수의 세그먼트의 특징을 취득할 수 있다.
특징 맵 [B C H W]을 예로 들면, 소정의 개수, 즉, 인식 대기의 목표 대상의 최대 개수 72에 기반하여 특징 맵 [B C H W]을 H차원(높이 차원)에 따라 세그먼트 분할한다. 조정 후의 목표 이미지의 높이가 소정의 높이보다 작을 경우, 목표 이미지에 대해 충전을 실행하여 높이가 소정의 높이에 달하게 한다. 조정 후의 목표 이미지의 높이가 소정의 높이보다 클 경우, 동일한 비율의 축소를 통해 목표 이미지의 높이를 소정의 높이로 조정하기 때문에, 상기 목표 이미지의 특징 맵은 모두 소정의 높이의 목표 이미지에 기반하여 취득된 것이다. 또, 상기 소정의 높이가 인식 대기의 목표 대상의 최대 개수에 기반하여 설정되기 때문에, 상기 최대 개수에 기반하여 상기 특징 맵을 세그먼트 분할하여, 취득된 각 세그먼트의 특징 맵을 각 목표 대상에 관련시키며, 각 세그먼트의 특징 맵에 기반하여 목표 대상의 인식을 실행함으로써, 목표 대상의 개수에 의한 영향을 줄일 수 있으며, 각 목표 대상 인식의 정확성을 향상시킨다.
몇몇의 실시예에 있어서, 상기 충전 후의 목표 이미지 중의, 상기 충전 후의 목표 이미지를 세그먼트 분할하여 얻은 소정의 개수의 세그먼트 특징에 대해, 상기 세그먼트 특징을 분류할 때에, 상기 제1 픽셀로 충전된 영역에 대응하는 세그먼트의 특징 분류 결과는 비어 있다. 예를 들면, 검은색 픽셀로 충전된 영역에 대응하는 세그먼트의 특징에 대해, 이 세그먼트의 특징에 대응하는 분류 결과가 비어 있는 것으로 확정할 수 있다. 목표 대상의 최대 개수와 비어 있는 분류 결과의 개수의 차이에 기반하여, 목표 이미지에 포함된 비어 있지 않는 분류 결과의 개수를 확정할 수 있으며, 또는 목표 대상에 대응하는 세그먼트 특징의 비어 있지 않는 분류 결과의 개수를 직접 인식할 수 있다. 이렇게 함으로써, 취득된 비어 있지 않는 분류 결과의 개수에 기반하여 목표 이미지에 포함되는 목표 대상의 개수를 확정할 수 있다.
인식 대기의 목표 대상의 최대 개수를 72로 가정하면, 목표 이미지의 특징 맵을 72개의 세그먼트로 분할하고, 각 세그먼트의 특징 맵에 기반하여 목표 대상의 인식을 실행하여, 72개의 분류 결과를 취득할 수 있다. 목표 이미지가 검은색 픽셀 충전 영역을 포함할 경우, 당해 충전 영역의 세그먼트 특징 맵에 대응하는 분류 결과가 비어 있다. 예를 들면, 비어 있는 분류 결과를 16개 취득했을 경우, 비어 있지 않는 분류 결과를 56개 취득할 수 있다. 이렇게 함으로써, 목표 이미지가 56개의 목표 대상을 포함하는 것으로 확정할 수 있다.
당업자라면 이해할 수 있듯이, 이상의 소정의 폭 매개 변수, 소정의 높이 매개 변수, 인식 대기의 목표 대상의 최대 개수 매개 변수는 모두 예시적인 것인바, 이러한 매개 변수의 구체적인 수치는 실제의 수요에 따라 구체적으로 설정될 수 있다. 본 발명의 실시예에서는 이에 대해 한정하지 않는다.
몇몇의 실시예에 있어서, 특징 맵의 추출 및 목표 대상의 인식은 모두 신경망에 의해 실행되며, 상기 신경망은 샘플 이미지 및 그 라벨 정보를 이용하여 트레이닝된 것이다. 상기 신경망은 특징 추출 네트워크 및 분류 네트워크를 포함할 수 있다. 여기서, 상기 특징 추출 네트워크는 사이즈 조정 후의 목표 이미지의 특징 맵을 추출하고, 상기 분류 네트워크는 소정의 개수의 세그먼트의 특징 중의 각 세그먼트의 특징에 기반하여 목표 대상의 인식을 실행한다. 여기서, 상기 샘플 이미지는 복수의 목표 대상을 포함한다.
일 예에 있어서, 상기 샘플 이미지의 라벨 정보는 상기 샘플 이미지 내의 각 목표 대상의 라벨 타입을 포함하고, 상기 신경망은 이하의 조작을 통해 트레이닝된 것이다. 상기 조작은 사이즈 조정 후의 샘플 이미지에 대해 특징 추출을 실행하여 상기 사이즈 조정 후의 샘플 이미지의 특징 맵을 얻는 것; 상기 특징 맵을 세그먼트 분할하여 얻은 각 세그먼트의 특징에 기반하여 샘플 이미지 내의 목표 대상의 인식을 실행하여, 샘플 이미지 내의 각 목표 대상의 예측 타입을 얻는 것; 및 상기 샘플 이미지 내의 각 목표 대상의 예측 타입 및 상기 샘플 이미지 내의 각 목표 대상의 라벨 타입에 기반하여 상기 신경망의 매개 변수 값을 조정하는 것을 포함한다.
게임 코인을 예로 들면, 각 게임 코인의 타입은 액면과 관련되며, 같은 액면의 게임 코인은 동일한 타입에 속한다. 수직으로 적층된 복수의 게임 코인을 포함하는 샘플 이미지의 경우, 상기 샘플 이미지에 각 게임 코인의 액면을 라벨링되어 있다. 액면이 라벨링된 샘플 이미지에 기반하여 목표 대상을 인식하기 위한 신경망을 트레이닝한다. 상기 신경망은 샘플 이미지에 기반하여 예측을 통해 각 게임 코인의 액면을 취득하고, 예측 타입과 라벨 타입 사이의 차이에 기반하여, 예를 들면 상기 특징 추출 네트워크의 매개 변수 값과 상기 분류 네트워크의 매개 변수 값을 포함하는 상기 신경망의 매개 변수 값을 조정하며, 예측 타입과 라벨 타입 사이의 차이가 설정 한계 값보다 작아질 경우, 또는 반복 회수가 설정 회수에 도달할 경우 트레이닝을 종료한다.
일 예에 있어서, 상기 샘플 이미지의 라벨 정보는 각 라벨 타입의 목표 대상의 개수를 더 포함한다. 이러한 경우, 상기 샘플 이미지 내의 각 목표 대상의 예측 타입, 상기 샘플 이미지 내의 각 목표 대상의 라벨 타입, 상기 샘플 이미지 중의 각 라벨 타입의 목표 대상의 개수 및 상기 샘플 이미지 중의 각 예측 타입의 목표 대상의 개수에 기반하여 상기 신경망의 매개 변수 값을 조정한다.
여전히 수직으로 적층된 복수의 게임 코인을 예로 들면, 상기 샘플 이미지에는 각 게임 코인의 액면 정보, 및 각 액면의 게임 코인의 개수 정보가 라벨링되어 있다. 상기 정보가 라벨링된 샘플 이미지에 기반하여 목표 대상을 인식하기 위한 신경망을 트레이닝한다. 상기 신경망은 샘플 이미지에 기반하여 예측을 통해 각 게임 코인의 액면 및 동일 액면의 게임 코인의 개수를 취득한다. 예측 결과와 라벨 정보 사이의 차이에 기반하여 상기 신경망의 매개 변수 값을 조정한다.
일 예에 있어서, 상기 샘플 이미지의 라벨 정보는 상기 샘플 이미지 내의 목표 대상의 총 개수를 더 포함한다. 이러한 경우, 상기 샘플 이미지 내의 각 목표 대상의 예측 타입, 상기 샘플 이미지 내의 각 목표 대상의 라벨 타입, 상기 샘플 이미지 중의 각 예측 타입의 목표 대상의 개수의 합 및 상기 샘플 이미지 내의 목표 대상의 총 개수에 기반하여 상기 신경망의 매개 변수 값을 조정한다.
여전히 수직으로 적층된 복수의 게임 코인을 예로 들면, 상기 샘플 이미지에는 각 게임 코인의 액면 정보 및 게임 코인의 총 개수 정보가 라벨링되어 있다. 상기 정보가 라벨링된 샘플 이미지에 기반하여 목표 대상을 인식하기 위한 신경망을 트레이닝한다. 상기 신경망은 샘플 이미지에 기반하여 예측을 통해 각 게임 코인의 액면, 및 게임 코인의 총 개수(즉, 예측 결과)을 취득한다. 예측 결과와 라벨 정보 사이의 차이에 기반하여 상기 신경망의 매개 변수 값을 조정한다.
일 예에 있어서, 상기 샘플 이미지의 라벨 정보는 상기 샘플 이미지 내의 각 목표 대상의 라벨 타입, 상기 샘플 이미지 중의 각 라벨 타입의 목표 대상의 개수 및 상기 샘플 이미지 내의 목표 대상의 총 개수를 포함한다. 이러한 경우, 상기 샘플 이미지 내의 각 목표 대상의 예측 타입, 상기 샘플 이미지 내의 각 목표 대상의 라벨 타입, 상기 샘플 이미지 중의 각 라벨 타입의 목표 대상의 개수 및 상기 샘플 이미지 중의 각 예측 타입의 목표 대상의 개수, 상기 샘플 이미지 중의 각 예측 타입의 목표 대상의 개수의 합 및 상기 샘플 이미지 내의 목표 대상의 총 개수에 기반하여, 상기 신경망의 매개 변수 값을 조정한다.
여전히 수직으로 적층된 복수의 게임 코인을 예로 들면, 상기 샘플 이미지에는 각 게임 코인의 액면 정보, 각 액면 게임 코인의 개수 정보 및 게임 코인의 총 개수 정보가 라벨링되어 있다. 상기 정보가 라벨링된 샘플 이미지에 기반하여 목표 대상을 인식하기 위한 신경망을 트레이닝한다. 상기 신경망은 샘플 이미지에 기반하여 예측을 통해 각 게임 코인의 액면, 각 액면의 게임 코인의 개수, 및 게임 코인의 총 개수를 취득한다. 예측 결과와 라벨 정보 사이의 차이에 기반하여 상기 신경망의 매개 변수 값을 조정한다.
본 발명의 실시예에 있어서, 상기 신경망을 트레이닝하는데 채용할 수 있는 손실 함수는 교차 엔트로피 손실, 각 타입의 목표 대상의 개수 손실, 상기 목표 대상의 총 개수 손실 중의 적어도 하나를 포함한다. 즉, 상기 손실 함수가 교차 엔트로피 손실 이외에, 각 타입의 목표 대상의 개수 손실 및 상기 목표 대상의 총 개수 손실도 포함할 수 있기 때문에, 목표 대상의 개수에 대한 인식 능력을 향상시킨다.
몇몇의 실시예에 있어서, 신경망을 트레이닝할 때에 트레이닝 데이터를 확장함으로써, 본 발명의 실시예에 따른 목표 대상의 타입 및 개수를 인식하기 위한 신경망이 실제의 씬에 더 잘 적용되도록 할 수 있다. 예를 들면, 상기 샘플 이미지를 수평으로 뒤집는 것, 상기 샘플 이미지를 설정 각도로 회전시키는 것, 상기 샘플 이미지에 대해 색 변환을 실행하는 것, 상기 샘플 이미지에 대해 휘도 변환을 실행하는 것 등 중의 임의의 하나 또는 복수를 채용하여 데이터를 확장할 수 있다.
본 발명의 복수의 실시예에 따른 목표 대상 인식 방법은 복수의 타입의 목표 대상을 인식하기 위하여 사용될 수도 있다. 세그먼트된 특징 맵을 이용하여 목표 대상을 인식함으로써, 각 타입의 목표 대상의 인식 정밀도가 타입 종류의 증가에 따라 낮아지지 않는다.
몇몇의 실시예에 있어서, 트레이닝된 상기 신경망을 테스트하고, 상기 테스트의 결과에 기반하여 상기 신경망에 따라 각 타입의 목표 대상의 인식 정밀도를 정렬하여 인식 정밀도의 정렬 결과를 얻으며, 상기 테스트의 결과에 기반하여 상기 신경망에 따라 각 타입의 목표 대상의 인식 오류율을 정렬하여 인식 오류율의 정렬 결과를 얻고, 상기 인식 정밀도의 정렬 결과 및 상기 인식 오류율의 정렬 결과에 기반하여 상기 신경망을 더 한층 트레이닝할 수 있다.
각 타입의 목표 대상의 인식 정밀도의 정렬 결과 및 인식 오류율의 정렬 결과에 대해 2차원 테이블을 이용하여 기억할 수 있다. 예를 들면, 인식 정밀도의 정렬 결과를 위서 아래로의 순번으로 테이블에 기억하고, 인식 오류율의 정렬 결과를 왼쪽에서 오른쪽으로의 순번으로 테이블에 기억할 수 있다. 상기 테이블 중의 설정 범위 내의 타입, 예를 들면 상기 테이블 중의 제3 행 및 앞의 3열의 범위 내에 위치하는 타입을 더 한층 트레이닝함으로써, 신경망의 당해 타입에 대한 인식 정밀도 및 정확률을 향상시킨다.
도 3은 본 발명의 적어도 하나의 실시예에 따른 목표 대상 인식 장치의 블록도이다. 도 3에 나타낸 바와 같이, 상기 장치는 수집된 이미지로부터, 적층된 복수의 인식 대기의 목표 대상을 포함하는 목표 이미지를 커팅하기 위한 취득 유닛(301); 상기 목표 이미지의 높이를 소정의 높이로 조정하기 위한 조정 유닛(302); 상기 조정된 목표 이미지의 특징 맵을 추출하기 위한 추출 유닛(303); 상기 특징 맵을 상기 목표 이미지의 높이 방향에 대응하는 차원에 따라 세그먼트 분할하여 소정의 개수의 세그먼트의 특징을 얻기 위한 세그먼트 분할 유닛(303); 및 상기 소정의 개수의 세그먼트의 특징 중의 각 세그먼트의 특징에 기반하여 목표 대상의 인식을 실행하기 위한 인식 유닛(305)을 구비하되, 상기 목표 이미지의 높이 방향은 상기 복수의 인식 대기의 목표 대상이 적층된 방향이다.
몇몇의 실시예에 있어서, 상기 조정 유닛(302)은 스케일링 후의 목표 이미지의 폭이 소정의 폭으로 될 때까지, 상기 목표 이미지의 높이 및 폭을 동일한 비율로 스케일링하고, 스케일링 후의 목표 이미지의 폭이 소정의 폭에 달했지만, 스케일링 후의 목표 이미지높이가 소정의 높이보다 클 경우, 축소 후의 목표 이미지의 높이가 소정의 높이와 동일해질 때까지, 상기 스케일링 후의 목표 이미지의 높이 및 폭을 동일한 비율로 축소한다.
몇몇의 실시예에 있어서, 상기 조정 유닛(302)은 스케일링 후의 목표 이미지의 폭이 소정의 폭으로 될 때까지, 상기 목표 이미지의 높이 및 폭을 동일한 비율로 스케일링하고, 스케일링 후의 목표 이미지의 폭이 소정의 폭에 달했지만, 스케일링 후의 목표 이미지의 높이가 소정의 높이보다 작을 경우, 제1 픽셀을 이용하여 스케일링 후의 목표 이미지에 대해 충전함으로써, 충전 후의 목표 이미지의 높이가 소정의 높이로 되도록 한다.
몇몇의 실시예에 있어서, 상기 목표 이미지 내의 인식 대기의 목표 대상은 시트 형 물체이며, 각 인식 대기의 목표 대상의 두께는 동일하고, 상기 복수의 인식 대기의 목표 대상은 그 두께 방향에 따라 적층되어 있으며, 소정의 높이는 상기 인식 대기의 목표 대상의 두께 정수배다.
몇몇의 실시예에 있어서, 특징 맵의 추출 및 목표 대상의 인식은 모두 신경망에 의해 실행되며, 상기 신경망은 샘플 이미지 및 그 라벨 정보를 이용하여 트레이닝된 것이다.
몇몇의 실시예에 있어서, 상기 샘플 이미지의 라벨 정보는 상기 샘플 이미지 내의 각 목표 대상의 라벨 타입을 포함하고, 상기 장치는 트레이닝 유닛을 더 구비하며, 상기 트레이닝 유닛은 사이즈 조정 후의 샘플 이미지에 대해 특징 추출을 실행하여, 상기 사이즈 조정 후의 샘플 이미지의 특징 맵을 얻는 것; 상기 특징 맵을 세그먼트 분할하여 얻은 각 세그먼트의 특징에 기반하여 샘플 이미지 내의 목표 대상의 인식을 실행하여, 샘플 이미지 내의 각 목표 대상의 예측 타입을 얻는 것; 및 상기 샘플 이미지 내의 각 목표 대상의 예측 타입 및 상기 샘플 이미지 내의 각 목표 대상의 라벨 타입에 기반하여 상기 신경망의 매개 변수 값을 조정하는 것을 통해 상기 신경망을 트레이닝한다.
몇몇의 실시예에 있어서, 상기 샘플 이미지의 라벨 정보는 각 라벨 타입의 목표 대상의 개수를 더 포함하며, 상기 트레이닝 유닛은 상기 샘플 이미지 내의 각 목표 대상의 예측 타입 및 상기 샘플 이미지 내의 각 목표 대상의 라벨 타입에 기반하여 상기 신경망의 매개 변수 값을 조정할 때에, 구체적으로 상기 샘플 이미지 내의 각 목표 대상의 예측 타입, 상기 샘플 이미지 내의 각 목표 대상의 라벨 타입, 상기 샘플 이미지 중의 각 라벨 타입의 목표 대상의 개수 및 상기 샘플 이미지 중의 각 예측 타입의 목표 대상의 개수에 기반하여 상기 신경망의 매개 변수 값을 조정한다.
몇몇의 실시예에 있어서, 상기 샘플 이미지의 라벨 정보는 상기 샘플 이미지 내의 목표 대상의 총 개수를 더 포함하며, 상기 트레이닝 유닛은 상기 샘플 이미지 내의 각 목표 대상의 예측 타입 및 상기 샘플 이미지 내의 각 목표 대상의 라벨 타입에 기반하여 상기 신경망 매개 변수 값을 조정할 때에, 상기 샘플 이미지 내의 각 목표 대상의 예측 타입, 상기 샘플 이미지 내의 각 목표 대상의 라벨 타입, 상기 샘플 이미지 중의 각 예측 타입의 목표 대상의 개수의 합 및 상기 샘플 이미지 내의 목표 대상의 총 개수에 기반하여 상기 신경망의 매개 변수 값을 조정한다.
몇몇의 실시예에 있어서, 상기 장치는 테스트 유닛을 더 구비하며, 상기 테스트 유닛은 트레이닝된 상기 신경망을 테스트하고, 상기 테스트의 결과에 기반하여 상기 신경망에 따라 각 타입의 목표 대상의 인식 정밀도를 정렬하여 인식 정밀도의 정렬 결과를 얻고, 상기 테스트의 결과에 기반하여 상기 신경망에 따라 각 타입의 목표 대상의 인식 오류율을 정렬하여 인식 오류율의 정렬 결과를 얻으며, 상기 인식 정밀도의 정렬 결과 및 상기 인식 오류율의 정렬 결과에 기반하여 상기 신경망을 더 한층 트레이닝한다.
도 4은 본 발명의 적어도 하나의 실시예에 따른 전자 디바이스의 블록도이다. 도 4에 나타낸 바와 같이, 상기 전자 디바이스는 프로세서; 및 프로세서 실행 가능 명령을 기억하기 위한 메모리를 구비할 수 있다. 여기서, 상기 프로세서는 상기 명령을 실행함으로써, 본 발명의 임의의 하나의 실시 형태에 기재된 목표 대상 인식 방법을 실시한다.
본 발명의 적어도 하나의 실시예는 컴퓨터 판독 가능 기록 매체를 더 제공한다. 상기 컴퓨터 판독 가능 기록 매체에는 컴퓨터 프로그램 명령이 기록되어 있으며, 상기 프로그램 명령이 프로세서에 의해 실행될 때에, 본 발명의 임의의 하나의 실시 형태에 기재된 목표 대상 인식 방법이 실시된다.
당업자는 본 발명의 하나 또는 복수의 실시예는 방법, 시스템 또는 컴퓨터 프로그램 제품으로 제공될 수 있음을 이해해야 한다. 따라서, 본 발명은 완전한 하드웨어의 실시예, 완전한 소프트웨어의 실시예 또는 소프트웨어와 하드웨어를 결합시킨 양태의 실시예의 형식을 채택할 수 있다. 또, 본 발명의 하나 또는 복수의 실시예는 하나 또는 복수의 컴퓨터 이용 가능한 프로그램 코드를 포함하는 컴퓨터 이용 가능한 기록 매체(자기 디스크 메모리, CD - ROM, 광학 메모리 등을 포함하지만, 이에 한정되지 않음) 상에서 실시되는 컴퓨터 프로그램 제품의 형식을 채택할 수 있다.
본 발명 중의 "및/또는”은 양자 중의 하나를 적어도 포함하는 것을 나타낸다. 예를 들면, "A 및/또는 B"는 A, B, 및 "A와 B"와 같은 세 가지 경우를 포함한다.
본 발명 중의 각 실시예는 모두 점진적인 방식으로 설명되었다. 각 실시예에서는 기타 실시예와의 차이점이 중점적으로 설명되었는 바, 각 실시예들 사이의 동일하거나 유사한 부분은 서로 참조하면 된다. 특히 데이터 처리 디바이스의 실시예의 경우, 방법의 실시예와 기본적으로 유사하기에 상대적으로 간단히 설명되었으나, 관련 부분은 방법의 실시예의 부분의 설명을 참조하면 된다.
상기는 본 발명이 특정 실시예에 대해 설명했다. 기타 실시예는 첨부된 특허 청구의 범위 내에 포함된다. 몇몇의 경우에 있어서, 특허청구의 범위에 기재된 행위 또는 단계는 실시예의 순서와 다른 순서로 실행될 수 있으며, 또한 여전히 원하는 결과를 얻을 수 있다. 또한, 도면에 나타낸 순서는 나타낸 특정 순서 또는 연속 순서가 아니면 원하는 결과를 얻을 수 없는 것을 요구한다고는 할 수 없다. 몇몇의 실시 형태에 있어서, 멀티 태스크 처리 및 병행 처리도 가능하며, 또는 더욱 유리할 수 있을 것이다.
본 발명 중의 설명된 주제 및 기능 동작의 실시예는 디지털 전자 회로, 유형의 컴퓨터 소프트웨어 및 펌웨어, 본 발명에 개시된 구조 및 그 구조적 균등 물을 포함하는 컴퓨터 하드웨어 또는 이들 중의 하나 또는 복수의 조합으로 실현될 수 있다. 본 발명에 설명된 주제의 실시예는 하나 또는 복수의 컴퓨터 프로그램, 즉, 유형의 비일시적인 프로그램 캐리어 상에 코딩되어 데이터 처리 장치에 의해 실행되거나 또는 데이터 처리 장치의 동작을 제어하는 컴퓨터 프로그램 명령 중의 하나 또는 복수의 모듈로 실현될 수 있다. 대체적으로 또는 추가적으로 프로그램 명령은 인공으로 생성된 전송 신호, 예를 들면 디바이스에서 생성된 전기, 빛 또는 전자적 신호로 코딩될 수 있다. 당해 신호는 생성됨으로써 정보를 부호화하여 적절한 수신기 장치에 전송되어 데이터 처리 장치에 의해 실행된다. 컴퓨터 기록 매체는 디바이스 판독 가능 기억 디바이스, 디바이스 판독 가능 기억 기판, 랜덤 및 직렬 액세스 저장 디바이스 또는 이들 중의 하나 또는 복수의 조합일 수 있다.
본 발명에 설명된 처리 및 논리 흐름은 하나 또는 복수의 컴퓨터 프로그램을 실행하는 하나 또는 복수의 프로그램 가능 컴퓨터에 의해 실시됨으로써, 입력 데이터에 따라 작업을 실행하여 출력을 생성함으로써 대응하는 기능을 수행시킬 수 있다. 상기 처리 및 논리 흐름은 전용 논리 회로, 예를 들면 FPGN (필드 프로그래밍 가능 게이트 어레이) 또는 NSIC (전용 집적 회로)에 의해 실행될 수 있으며, 장치도 전용 논리 회로로서 실현될 수 있다.
컴퓨터 프로그램을 실행하는 데 적합한 컴퓨터는 예를 들면 범용 및/또는 전용 마이크로 프로세서 또는 임의의 기타 타입의 중앙 처리 장치를 포함한다. 일반적으로 중앙 처리 장치는 읽기 전용 메모리 및/또는 랜덤 액세스 메모리로부터 명령 및 데이터를 수신한다. 컴퓨터의 기본 구성 요소는 명령을 구현하거나 실행하기 위한 중앙 처리 장치와 명령 및 데이터를 기억하기 위한 하나 또는 복수의 저장 디바이스를 포함한다. 일반적으로 컴퓨터는 또한 데이터를 저장하기 위한 하나 또는 복수의 대용량 저장 디바이스 예를 들면 자기 디스크, 광 자기 디스크 또는 광 디스크 등을 포함하거나, 또는 대용량 저장 디바이스와 작동 가능하게 연결되어 데이터를 수신하거나 전송한다. 그러나, 컴퓨터는 이러한 디바이스를 반드시 필요로 하지 않는다. 또한, 컴퓨터는 예를 들면, 휴대전화, 개인용 디지털 비서 (PDN), 모바일 오디오 또는 비디오 플레이어, 게임 콘솔, 글로벌 포지셔닝 시스템 (GPS) 수신기 또는 예를 들면 범용 직렬 버스 (USB) 플래시 메모리 드라이버의 휴대용 저장 디바이스와 같은 별도의 디바이스에 내장될 수 있으며, 이는 단지 몇몇의 예일 뿐이다.
컴퓨터 프로그램 명령 및 데이터를 저장하는데 적합한 컴퓨터 판독 가능 매체는 모든 형태의 불 휘발성 메모리, 매체 및 저장 디바이스를 포함하는 바, 예를 들면, 반도체 저장 디바이스 (예를 들면, EPROM, EEPROM 및 플래시 저장 디바이스), 자기 디스크 (예를 들면, 내부 하드 디스크 또는 이동 디스크), 광 자기 디스크 및 CD ROM과 DVD - ROM디스크를 포함한다. 프로세서와 메모리는 전용 논리 회로에 의해 보충되어 또는 전용 논리 회로에 통합될 수 있다.
본 발명이 대량의 구체적인 실시 세부 사항을 포함하지만, 이들은 임의의 개시 범위 또는 보호 범위를 제한하는 것으로 해석되어 서는 안되며, 주로 개시된 구체적인 특정 실시예의 특징을 설명하기 위하여 사용된다. 본 발명의 복수의 실시예에 설명된 몇몇의 특징은 단일 실시예에서 조합되어 실시될 수 있다. 다른 한편으로, 단일 실시예에 설명된 다양한 특징은 복수의 실시예에 나뉘어 실시되거나, 임의의 적절한 서브 조합으로 실시될 수 있다. 또한, 특징이 상기와 같이 몇몇의 조합에서 역할을 발휘하고, 또한 특징을 최초로 이렇게 보호하도록 요구할 수 있지만, 보호를 요구하는 조합 중의 하나 또는 복수의 특징은 몇몇의 경우에 당해 조합에서 제거될 수도 있고, 또한 보호를 요구하는 조합은 서브 조합 또는 서브 조합의 변형으로 지정될 수 있다.
마찬가지로, 도면에서 특정 순서로 동작을 나타냈지만, 이러한 동작이 나타낸 특정 순서에 따라 실행되거나, 차례로 실행되거나, 또는 예시된 모든 동작이 실행됨으로써 원하는 결과를 얻어야 한다고 요구하는 것으로 이해해서는 안된다. 몇몇의 경우에, 멀티 태스크 및 병행 처리가 더욱 유리할 가능성이 있다. 또한, 상기 실시예의 다양한 시스템 모듈과 구성 요소의 분리는 모든 실시예에서 이러한 분리를 필요로 한다고 이해해서는 안된다. 또한 설명되는 프로그램 구성 요소 및 시스템은 일반적으로 단일 소프트웨어 제품에 통합되거나, 복수의 소프트웨어 제품으로 캡슐화될 수 있음을 이해해야 한다.
위와 같이 주제의 특정 실시예가 설명되었다. 다른 실시예는 첨부된 특허 청구의 범위 내에 포함된다. 몇몇의 경우에 있어서, 특허 청구의 범위에 기재된 동작은 다른 순서로 실행될 수 있으며, 여전히 원하는 결과를 얻을 수 있다. 또한, 도면에 나타낸 처리가 반드시 나타내진 특정 순서 또는 연속된 순서로 원하는 결과를 얻는다고는 할 수 없다. 몇몇의 실시 형태에 있어서, 멀티 태스크 처리 및 병행 처리가 더욱 유리할 가능성이 있다.
상술한 설명은 본 발명의 하나 또는 복수의 실시예의 바람직한 실시예일뿐이며, 본 발명의 하나 또는 복수의 실시예를 제한하려는 것이 아니다. 본 발명의 하나 또는 복수의 실시예의 정신 및 원칙 내에서 실행한 어떠한 변경, 균등물에 의한 치환, 개량 등도 본 발명의 하나 또는 복수의 실시예의 보호 범위 내에 포함되어야 한다.

Claims (20)

  1. 목표 대상 인식 방법에 있어서,
    수집된 이미지로부터, 적층된 복수의 인식 대기의 목표 대상을 포함하는 목표 이미지를 커팅하는 것;
    상기 목표 이미지의 높이를 소정의 높이로 조정하는 것;
    상기 조정된 목표 이미지의 특징 맵을 추출하는 것;
    상기 특징 맵을 상기 목표 이미지의 높이 방향에 대응하는 차원에 따라 세그먼트 분할하여, 소정의 개수의 세그먼트의 특징을 취득하는 것; 및
    상기 소정의 개수의 세그먼트의 특징 중의 각 세그먼트의 특징에 기반하여 목표 대상의 인식을 실행하는 것을 포함하되,
    상기 목표 이미지의 높이 방향은 상기 복수의 인식 대기의 목표 대상이 적층된 방향인
    것을 특징으로 하는 목표 대상 인식 방법.
  2. 제1항에 있어서,
    상기 목표 이미지의 높이를 상기 소정의 높이로 조정하는 것은,
    스케일링 후의 목표 이미지의 폭이 소정의 폭으로 될 때까지, 상기 목표 이미지의 높이 및 폭을 동일한 비율로 스케일링 하는 것; 및
    상기 스케일링 후의 목표 이미지의 높이가 상기 소정의 높이보다 클 경우, 축소 후의 목표 이미지의 높이가 상기 소정의 높이와 동일해질 때까지, 상기 스케일링 후의 목표 이미지의 높이 및 폭을 동일한 비율로 축소하는 것을 포함하는
    것을 특징으로 하는 목표 대상 인식 방법.
  3. 제1항에 있어서,
    상기 목표 이미지의 높이를 상기 소정의 높이로 조정하는 것은,
    스케일링 후의 목표 이미지의 폭이 소정의 폭으로 될 때까지, 상기 목표 이미지의 높이 및 폭을 동일한 비율로 스케일링 하는 것; 및
    상기 스케일링 후의 목표 이미지의 높이가 상기 소정의 높이보다 작을 경우, 제1 픽셀을 이용하여 상기 스케일링 후의 목표 이미지에 대해 충전을 실행함으로써, 충전된 목표 이미지의 높이가 상기 소정의 높이로 되도록 하는 것을 포함하는
    것을 특징으로 하는 목표 대상 인식 방법.
  4. 제1항에 있어서,
    상기 목표 이미지 내의 인식 대기의 목표 대상은 시트 형 물체이며, 각 인식 대기의 목표 대상의 두께는 동일하고, 상기 복수의 인식 대기의 목표 대상은 두께 방향에 따라 적층되어 있으며, 또한,
    상기 소정의 높이는 상기 두께의 정수배인
    것을 특징으로 하는 목표 대상 인식 방법.
  5. 제1항 내지 제4항 중 어느 한 항에 있어서,
    상기 특징 맵의 추출 및 목표 대상의 인식은 모두 신경망에 의해 실행되며, 상기 신경망은 샘플 이미지 및 그 라벨 정보를 이용하여 트레이닝된 것인
    것을 특징으로 하는 목표 대상 인식 방법.
  6. 제5항에 있어서,
    상기 샘플 이미지의 라벨 정보는 상기 샘플 이미지 내의 각 목표 대상의 라벨 타입을 포함하고,
    상기 신경망은,
    사이즈 조정 후의 샘플 이미지에 대해 특징 추출을 실행하여, 상기 사이즈 조정 후의 샘플 이미지의 특징 맵을 얻는 것;
    상기 특징 맵을 세그먼트 분할하여 얻은 각 세그먼트의 특징에 기반하여 샘플 이미지 내의 목표 대상의 인식을 실행하여, 샘플 이미지 내의 각 목표 대상의 예측 타입을 얻는 것; 및
    상기 샘플 이미지 내의 각 목표 대상의 예측 타입 및 상기 샘플 이미지 내의 각 목표 대상의 라벨 타입에 기반하여 상기 신경망의 매개 변수 값을 조정하는 것을 통해 트레이닝된 것인
    것을 특징으로 하는 목표 대상 인식 방법.
  7. 제6항에 있어서,
    상기 샘플 이미지의 라벨 정보는 각 라벨 타입의 목표 대상의 개수를 더 포함하며,
    상기 신경망의 매개 변수 값을 조정하는 것은,
    상기 샘플 이미지 내의 각 목표 대상의 예측 타입, 상기 샘플 이미지 내의 각 목표 대상의 라벨 타입, 상기 샘플 이미지 중의 각 라벨 타입의 목표 대상의 개수 및 상기 샘플 이미지 중의 각 예측 타입의 목표 대상의 개수에 기반하여 상기 신경망의 매개 변수 값을 조정하는 것을 포함하는
    것을 특징으로 하는 목표 대상 인식 방법.
  8. 제6항에 있어서,
    상기 샘플 이미지의 라벨 정보는 상기 샘플 이미지 내의 목표 대상의 총 개수를 더 포함하며,
    상기 신경망의 매개 변수 값을 조정하는 것은,
    상기 샘플 이미지 내의 각 목표 대상의 예측 타입, 상기 샘플 이미지 내의 각 목표 대상의 라벨 타입, 상기 샘플 이미지 중의 각 예측 타입의 목표 대상의 개수의 합 및 상기 샘플 이미지 내의 목표 대상의 총 개수에 기반하여 상기 신경망의 매개 변수 값을 조정하는 것을 포함하는
    것을 특징으로 하는 목표 대상 인식 방법.
  9. 제5항에 있어서,
    트레이닝된 상기 신경망을 테스트하는 것;
    상기 테스트의 결과에 기반하여 상기 신경망에 따라 각 타입의 목표 대상의 인식 정밀도를 정렬하여, 인식 정밀도의 정렬 결과를 얻는 것;
    상기 테스트의 결과에 기반하여 상기 신경망에 따라 각 타입의 목표 대상의 인식 오류율을 정렬하여, 인식 오류율의 정렬 결과를 얻는 것; 및
    상기 인식 정밀도의 정렬 결과 및 상기 인식 오류율의 정렬 결과에 기반하여 상기 신경망을 더 한층 트레이닝하는 것을 더 포함하는
    것을 특징으로 하는 목표 대상 인식 방법.
  10. 목표 대상 인식 장치에 있어서,
    수집된 이미지로부터, 적층된 복수의 인식 대기의 목표 대상을 포함하는 목표 이미지를 커팅하기 위한 취득 유닛;
    상기 목표 이미지의 높이를 소정의 높이로 조정하기 위한 조정 유닛;
    상기 조정된 목표 이미지의 특징 맵을 추출하기 위한 추출 유닛;
    상기 특징 맵을 상기 목표 이미지의 높이 방향에 대응하는 차원에 따라 세그먼트 분할하여, 소정의 개수의 세그먼트의 특징을 얻기 위한 세그먼트 분할 유닛; 및
    상기 소정의 개수의 세그먼트의 특징 중의 각 세그먼트의 특징에 기반하여 목표 대상의 인식을 실행하기 위한 인식 유닛을 구비하되,
    상기 목표 이미지의 높이 방향은 상기 복수의 인식 대기의 목표 대상이 적층된 방향인
    것을 특징으로 하는 목표 대상 인식 장치.
  11. 제10항에 있어서,
    상기 조정 유닛은,
    스케일링 후의 목표 이미지의 폭이 소정의 폭으로 될 때까지, 상기 목표 이미지의 높이 및 폭을 동일한 비율로 스케일링하고, 또한,
    상기 스케일링 후의 목표 이미지의 높이가 상기 소정의 높이보다 클 경우, 축소 후의 목표 이미지의 높이가 상기 소정의 높이와 동일해질 때까지, 상기 스케일링 후의 목표 이미지의 높이 및 폭을 동일한 비율로 축소하는
    것을 특징으로 하는 목표 대상 인식 장치.
  12. 제10항에 있어서,
    상기 조정 유닛은,
    스케일링 후의 목표 이미지의 폭이 소정의 폭으로 될 때까지, 상기 목표 이미지의 높이 및 폭을 동일한 비율로 스케일링하고, 또한,
    상기 스케일링 후의 목표 이미지의 높이가 상기 소정의 높이보다 작을 경우, 제1 픽셀을 이용하여 상기 스케일링 후의 목표 이미지에 대해 충전을 실행함으로써, 충전된 목표 이미지의 높이가 상기 소정의 높이로 되도록 하는
    것을 특징으로 하는 목표 대상 인식 장치.
  13. 제10항에 있어서,
    상기 목표 이미지 내의 인식 대기의 목표 대상은 시트 형 물체이며, 각 인식 대기의 목표 대상의 두께는 동일하고, 상기 복수의 인식 대기의 목표 대상은 두께 방향에 따라 적층되어 있으며, 또한,
    상기 소정의 높이는 상기 두께의 정수배인
    것을 특징으로 하는 목표 대상 인식 장치.
  14. 제10항 내지 제13항 중 어느 한 항에 있어서,
    상기 특징 맵의 추출 및 목표 대상의 인식은 모두 신경망에 의해 실행되며, 상기 신경망은 샘플 이미지 및 그 라벨 정보를 이용하여 트레이닝된 것인
    것을 특징으로 하는 목표 대상 인식 장치.
  15. 제14항에 있어서,
    상기 샘플 이미지의 라벨 정보는 상기 샘플 이미지 내의 각 목표 대상의 라벨 타입을 포함하고,
    상기 목표 대상 인식 장치는 트레이닝 유닛을 더 구비하며,
    상기 트레이닝 유닛은,
    사이즈 조정 후의 샘플 이미지에 대해 특징 추출을 실행하여, 상기 사이즈 조정 후의 샘플 이미지의 특징 맵을 얻는 것;
    상기 특징 맵을 세그먼트 분할하여 얻은 각 세그먼트의 특징에 기반하여 샘플 이미지 내의 목표 대상의 인식을 실행하여, 샘플 이미지 내의 각 목표 대상의 예측 타입을 얻는 것; 및
    상기 샘플 이미지 내의 각 목표 대상의 예측 타입 및 상기 샘플 이미지 내의 각 목표 대상의 라벨 타입에 기반하여 상기 신경망의 매개 변수 값을 조정하는 것을 통해 상기 신경망을 트레이닝하는
    것을 특징으로 하는 목표 대상 인식 장치.
  16. 제15항에 있어서,
    상기 샘플 이미지의 라벨 정보는 각 라벨 타입의 목표 대상의 개수를 더 포함하며,
    상기 트레이닝 유닛은 상기 샘플 이미지 내의 각 목표 대상의 예측 타입, 상기 샘플 이미지 내의 각 목표 대상의 라벨 타입, 상기 샘플 이미지 중의 각 라벨 타입의 목표 대상의 개수 및 상기 샘플 이미지 중의 각 예측 타입의 목표 대상의 개수에 기반하여 상기 신경망의 매개 변수 값을 조정하는
    것을 특징으로 하는 목표 대상 인식 장치.
  17. 제15항에 있어서,
    상기 샘플 이미지의 라벨 정보는 상기 샘플 이미지 내의 목표 대상의 총 개수를 더 포함하며,
    상기 트레이닝 유닛은 상기 샘플 이미지 내의 각 목표 대상의 예측 타입, 상기 샘플 이미지 내의 각 목표 대상의 라벨 타입, 상기 샘플 이미지 중의 각 예측 타입의 목표 대상의 개수의 합 및 상기 샘플 이미지 내의 목표 대상의 총 개수에 기반하여 상기 신경망의 매개 변수 값을 조정하는
    것을 특징으로 하는 목표 대상 인식 장치.
  18. 제14항에 있어서,
    상기 목표 대상 인식 장치는 테스트 유닛을 더 구비하며,
    상기 테스트 유닛은,
    트레이닝된 상기 신경망을 테스트하고,
    상기 테스트의 결과에 기반하여 상기 신경망에 따라 각 타입의 목표 대상의 인식 정밀도를 정렬하여, 인식 정밀도의 정렬 결과를 얻고,
    상기 테스트의 결과에 기반하여 상기 신경망에 따라 각 타입의 목표 대상의 인식 오류율을 정렬하여, 인식 오류율의 정렬 결과를 얻으며,
    상기 인식 정밀도의 정렬 결과 및 상기 인식 오류율의 정렬 결과에 기반하여 상기 신경망을 더 한층 트레이닝하는
    것을 특징으로 하는 목표 대상 인식 장치.
  19. 전자 디바이스에 있어서,
    프로세서; 및
    프로세서 실행 가능 명령을 기억하기 위한 메모리를 구비하며,
    상기 프로세서는 상기 명령을 실행함으로써, 제1항 내지 제9항 중 어느 한 항에 기재된 목표 대상 인식 방법을 실시하도록 구성되는
    것을 특징으로 하는 전자 디바이스.
  20. 컴퓨터 판독 가능 기록 매체에 있어서,
    상기 컴퓨터 판독 가능 기록 매체에는 컴퓨터 프로그램 명령이 기록되어 있으며, 상기 컴퓨터 프로그램 명령이 프로세서에 의해 실행될 때에, 제1항 내지 제9항 중 어느 한 항에 기재된 목표 대상 인식 방법이 실시되는
    것을 특징으로 하는 컴퓨터 판독 가능 기록 매체.
KR1020217013067A 2020-08-01 2020-10-30 목표 대상 인식 방법, 장치 및 시스템 KR20220018467A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
SG10202007347V 2020-08-01
SG10202007347VA SG10202007347VA (en) 2020-08-01 2020-08-01 Method, apparatus and system for identifying target objects
PCT/IB2020/060203 WO2022029478A1 (en) 2020-08-01 2020-10-30 Method, apparatus and system for identifying target objects

Publications (1)

Publication Number Publication Date
KR20220018467A true KR20220018467A (ko) 2022-02-15

Family

ID=74953043

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020217013067A KR20220018467A (ko) 2020-08-01 2020-10-30 목표 대상 인식 방법, 장치 및 시스템

Country Status (5)

Country Link
US (1) US11631240B2 (ko)
JP (1) JP7250924B2 (ko)
KR (1) KR20220018467A (ko)
CN (1) CN112513877A (ko)
AU (1) AU2020294280A1 (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220027672A1 (en) * 2020-07-27 2022-01-27 Nvidia Corporation Label Generation Using Neural Networks
CN113111960B (zh) * 2021-04-25 2024-04-26 北京文安智能技术股份有限公司 图像处理方法和装置以及目标检测模型的训练方法和系统
AU2021240270A1 (en) * 2021-09-13 2023-03-30 Sensetime International Pte. Ltd. Data processing methods, apparatuses and systems, media and computer devices
WO2023111674A1 (en) * 2021-12-17 2023-06-22 Sensetime International Pte. Ltd. Target detection method and apparatus, electronic device, and computer storage medium

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE60302549T2 (de) * 2002-02-05 2006-08-17 Bally Gaming International, Inc., Las Vegas Erkennung von spielinformation
WO2004112923A1 (en) * 2003-06-26 2004-12-29 Tangam Gaming Technology Inc. System, apparatus and method for automatically tracking a table game
JP2009245226A (ja) * 2008-03-31 2009-10-22 Sega Corp 画像処理方法並びに装置、及び載置物
US8285034B2 (en) * 2009-08-26 2012-10-09 Bally Gaming, Inc. Apparatus, method and article for evaluating a stack of objects in an image
WO2016197303A1 (en) 2015-06-08 2016-12-15 Microsoft Technology Licensing, Llc. Image semantic segmentation
CN106126579B (zh) * 2016-06-17 2020-04-28 北京市商汤科技开发有限公司 物体识别方法和装置、数据处理装置和终端设备
US9940729B1 (en) * 2016-11-18 2018-04-10 Here Global B.V. Detection of invariant features for localization
KR101925011B1 (ko) * 2017-03-14 2019-02-27 한국과학기술원 워터마크 삽입/검출 방법 및 장치
KR102501264B1 (ko) * 2017-10-02 2023-02-20 센센 네트웍스 그룹 피티와이 엘티디 기계 학습 기반의 개체 검출을 위한 시스템 및 방법
CN108228703B (zh) * 2017-10-31 2020-05-08 北京市商汤科技开发有限公司 图像问答方法、装置、系统和存储介质
CN108734199B (zh) * 2018-04-24 2021-09-07 西北工业大学 基于分段深度特征及低秩表示的高光谱图像鲁棒分类方法
CN108681746B (zh) * 2018-05-10 2021-01-12 北京迈格威科技有限公司 一种图像识别方法、装置、电子设备和计算机可读介质
CN109344832B (zh) 2018-09-03 2021-02-02 北京市商汤科技开发有限公司 图像处理方法及装置、电子设备和存储介质
CN111310751B (zh) 2018-12-12 2023-08-29 北京嘀嘀无限科技发展有限公司 车牌识别方法、装置、电子设备和存储介质
CN111062237A (zh) * 2019-09-05 2020-04-24 商汤国际私人有限公司 识别图像中的序列的方法及装置、电子设备和存储介质

Also Published As

Publication number Publication date
JP7250924B2 (ja) 2023-04-03
US11631240B2 (en) 2023-04-18
CN112513877A (zh) 2021-03-16
JP2022546883A (ja) 2022-11-10
US20220036067A1 (en) 2022-02-03
AU2020294280A1 (en) 2022-02-17

Similar Documents

Publication Publication Date Title
KR20220018467A (ko) 목표 대상 인식 방법, 장치 및 시스템
CN108475331B (zh) 用于对象检测的方法、装置、系统和计算机可读介质
EP3295424B1 (en) Systems and methods for reducing a plurality of bounding regions
US9767363B2 (en) System and method for automatic detection of spherical video content
CN111091123A (zh) 文本区域检测方法及设备
CN111444976A (zh) 目标检测方法、装置、电子设备和可读存储介质
CN115861400B (zh) 目标对象检测方法、训练方法、装置以及电子设备
CN111062262B (zh) 发票识别方法以及发票识别装置
CN115375914A (zh) 基于Yolov5目标检测模型改进的目标检测方法、装置和存储介质
US20220398400A1 (en) Methods and apparatuses for determining object classification
JP7165353B2 (ja) 画像特徴量出力装置、画像認識装置、画像特徴量出力プログラム、及び画像認識プログラム
AU2020403709B2 (en) Target object identification method and apparatus
CN103136536A (zh) 对象检测系统和方法、图像的特征提取方法
CN116958873A (zh) 行人跟踪方法、装置、电子设备及可读存储介质
CN116403127A (zh) 一种无人机航拍图像目标检测方法、装置和存储介质
CN115512207A (zh) 一种基于多路特征融合及高阶损失感知采样的单阶段目标检测方法
WO2022263908A1 (en) Methods and apparatuses for determining object classification
US11087121B2 (en) High accuracy and volume facial recognition on mobile platforms
CN115004245A (zh) 目标检测方法、装置、电子设备和计算机存储介质
WO2022029478A1 (en) Method, apparatus and system for identifying target objects
CN107886102B (zh) Adaboost分类器训练方法及系统
CN111127327A (zh) 一种图片倾斜检测方法及装置
KR101585059B1 (ko) 영상 데이터 처리 방법 및 디바이스
CN116541549B (zh) 子图分割方法、装置、电子设备及计算机可读存储介质
CN111753625B (zh) 一种行人检测方法、装置、设备及介质

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E601 Decision to refuse application